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R 数 据 可 视 化 手册 


本 书 提供 了 快速 绘制 高 质量 图 形 的 150 多 个 精 选 的 技巧 ， 读 者 不 需 
要 了 解 R 绘 图 系统 的 全 部 细节 便 可 以 掌握 这 些 技巧 。 这 里 的 每 个 
技巧 都 针对 一 个 具体 问题 。 其 中 ， 讨 论 环节 还 解释 了 “如 何 ” 

及 “为 什么 ”如 此 绘图 ， 读 者 可 酌情 将 其 套用 到 自己 的 项 目 中 。 

本 书 中 的 大 多 数 方法 使 用 的 是 以 强大 、 灵 活 制图 而 著称 的 ggplot2 
包 。 如 果 读者 对 R 语 言 有 基本 的 了 解 ， 便 可 以 开始 学 习 R 中 丰富 的 
数据 可 视 化 方法 了 。 


日 使 用 R 中 的 基础 图 形 来 快速 探索 数据 

加 绘制 各 种 柱状 图 、 线 图 、 散 点 图 

日 用 直方 图 、 密 度 曲线 、 箱 线 图 和 其 他 图 形 来 描述 数据 的 分 布 
由 为 图 形 添加 注解 ， 帮 助 读 图 者 更 好 地 理解 数据 

目 控制 图 形 的 整体 外 观 

上 分 组 绘制 图 形 以 便于 对 比 数据 

四 绘图 色彩 的 选择 

昌 绘制 网 络 图 、 热 图 、3D 散 点 图 

上 日 把 数据 整理 成 绘图 所 需 的 格式 


ee 工具 和 技术 的 生态 系 
， 它 使 用 海量 数据 来 支持 智能 化 决策 。 


Strata 


Making Data Work 





“这 本 书 首先 介绍 了 绘制 常规 图 
形 的 方法 ， 然 后 展示 了 如 何 将 
它们 调整 为 符合 读者 需要 的 图 
形 。 它 不 仅 是 R 可 视 化 方面 的 
优秀 读物 ， 更 以 丰富 的 案例 为 
我 们 提供 了 绘制 图 形 的 灵感 源 
泉 。” 
一 -Hadley Wickham 
莱 斯 大 学 助理 教授 


Winston Chang 
RStudio 的 软件 工程 师 ， 致 力 
于 R 中 的 数据 可 视 化 和 软件 开 
发 工具 的 研发 。 他 创立 的 网 
站 “Cookbook for R” 提 供 了 
R 中 常见 问题 的 解决 技巧 。 
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内 容 提 要 


R 具有 强大 的 统计 计算 功能 和 便捷 的 数据 可 视 化 系统 。 本 书 重点 讲解 R 的 绘图 系 
统 ， 指 导读 者 通过 绘图 系统 实现 数据 可 视 化 。 


书 中 提供 了 快速 绘制 高 质量 图 形 的 150 多 种 技巧 ， 每 个 技巧 用 来 解决 一 个 特定 的 
绘图 需求 。 读 者 可 以 通过 目录 快速 定位 到 自己 遇 到 的 问题 ， 查 阅 相 应 的 解决 方案 。 
同时 ， 作 者 在 大 部 分 的 技巧 之 后 会 进行 一 些 讨论 和 延伸 ， 介 绍 一 些 总 结 出 的 绘图 
技巧 。 

本 书 侧重 于 解决 具体 问题 ， 是 R 数据 可 视 化 的 实战 秘籍 。 本 书 中 绝 大 多 数 的 绘图 
案例 都 是 以 强大 、 灵 活 制 图 而 著称 的 R 包 ggplot2 实现 的 ， 充 分 展现 了 ggplot2 生 
动 、 翔 实 的 一 面 。 从 如 何 画 点 图 、 线 图 、 柱 状 图 ， 到 如 何 添加 注解 、 修 改 坐 标 轴 
和 图 例 ， 再 到 分 面 的 使 用 和 颜色 的 选取 等 ， 本 书 都 有 清晰 的 讲解 。 虽 然 本 书 的 大 
多 数 技巧 使 用 的 是 ggplot2， 但 是 并 不 仅仅 局 限于 ggplot2 的 介绍 。 作 者 的 理念 是 
用 合适 的 工具 来 完成 合适 的 绘图 任务 ， 读 者 也 可 以 学 到 许多 其 他 有 用 的 绘图 函数 
和 工具 ， 来 适应 各 种 复杂 的 需求 。 


本 书 是 学 习 R 中 丰富 的 数据 可 视 化 方法 的 权威 手册 ， 非 常 适合 对 R 语言 有 基本 的 
了 解 的 读者 阅读 。 


O’Reilly Media, Inc. 介 绍 


O'Reilly Media 通 过 图 书 、 杂 志 、 在 线 服务 、 调 查 研究 和 会 议 等 方式 传播 创新 知识 。 自 1978 年 
开始 ，O’Reilly 一 直 都 是 前 沿 发 展 的 见证 者 和 推动 者 。 超 级 极 客 们 正在 开创 着 未 来 ， 而 我 们 关 
注 真 正 重要 的 技术 趋势 一 一 通过 放大 那些 “细微 的 信号 ”来 刺激 社会 对 新 科技 的 应 用 。 作 为 
技术 社区 中 活跃 的 参与 者 ，O"Reilly 的 发 展 充满 了 对 创新 的 倡导 、 创 造 和 发 扬 光 大 。 


O'Reilly 为 软件 开发 人 员 带 来 革命 性 的 “动物 书 ”， 创 建 第 一 个 商业 网 站 (GNN) ， 组 织 了 
影响 深远 的 开放 源 代码 峰会 ， 以 至 于 开源 软件 运动 以 此 命名 :创立 了 Make 杂 志 ， 从 而 成 为 
DIY 革 命 的 主要 先锋 ， 公 司 一 如 既往 地 通过 多 种 形式 缔结 信息 与 人 的 纽带 。O'Reilly 的 会 议和 
峰会 集聚 了 众多 超级 极 客 和 高 瞻 远 瞩 的 商业 领袖 ， 共 同 描绘 出 开创 新 产业 的 革命 性 思想 。 作 
为 技术 人 士 获取 信息 的 选择 ，O"Reilly 现 在 还 将 先锋 专家 的 知识 传递 给 普通 的 计算 机 用 户 。 无 
论 是 通过 书籍 出 版 ， 在 线 服务 或 者 面授 课程 ， 每 一 项 O'"Reilly 的 产品 都 反映 了 公司 不 可 动摇 的 
理念 一 一 信息 是 激发 创新 的 力量 。 


业界 评论 
“O'Reilly Radar 博 客 有 口 篆 碑 。” 


Wired 


“O"Reilly 任 借 一 系列 (真希 望 当初 我 也 想到 了 ) 非凡 想法 建立 了 数 百 万 美元 的 业务 。” 
Business 2.0 

“O'Reilly Conference 是 聚 业 关键 思想 领袖 的 绝对 典范 。” 

一 一 CRN 
“一 本 O'Reilly 的 书 就 代表 一 个 有 用 、 有 前 途 、 需 要 学 习 的 主题 。” 

一 一 Irish Times 
“Tim 是 位 特 立 独行 的 商人 ， 他 不 光 放 眼 于 最 长 远 、 最 广阔 的 视野 并 且 切 实地 按照 
Yogi Berra 的 建议 去 做 了 : “如 果 你 在 路 上 遇 到 贫 路 口 ， 走 小 路 (岔路) 。 ”回顾 
过 去 Tim 似 乎 每 一 次 都 选择 了 小 路 ,而 且 有 几 次 部 是 一 闪 即 闭 的 机 会 ， 尽管 大 路 也 
不 错 。” 


一 一 Linux Journal 





译 者 序 


R 官方 网 站 的 第 一 句 话 是 这 样 介绍 R 语言 的 :“R 是 一 个 用 于 统计 计算 和 绘图 的 自由 
软件 环境 ,” 这 句 话 突出 了 R 的 两 大 特色 强大 的 统计 计算 功能 和 便捷 的 数据 可 视 化 
系统 。 在 很 多 情况 下 ， 当 我 们 将 R 与 其 他 同类 的 语言 、 软 件 进行 比较 时 ， 通 常 都 会 强 
调 其 灵活 的 编程 和 计算 能 力 ， 然 而 事实 上 ，R 的 绘图 系统 也 是 其 最 大 的 优势 之 一 。 


经 过 长 年 的 开发 和 完善 ， 目 前 R 主要 支持 了 四 套图 形 系统 ， 基础 图 形 (base)、 网 格 
图 形 〈grid) 、lattice 图 形 和 ggplot2。 其 中 前 三 个 都 内 置 于 RR 的 发 行 包 ， 其 功能 已 经 非 
常 稳定 ， 而 最 为 年 轻 的 ggplot2 〈 最 早 开发 于 2005 年 ) 在 历经 若干 次 重大 更 新 后 ， 也 
逐渐 成 为 了 R 中 数据 可 视 化 的 主流 选择 。 由 于 ggplot2 具有 强大 的 语法 特性 和 优雅 的 
图 形 外 观 ， 它 迅速 吸引 了 众多 的 使 用 者 和 开发 者 ， 并 已 经 开始 被 移植 到 其 他 语言 中 ， 
如 Python、Julia 等 。 可 以 说 ，ggplot2 与 R 中 传统 的 图 形 系统 形成 了 良好 的 互补 ; 
后 者 适合 快速 的 数据 探索 性 分 析 ， 而 前 者 则 可 以 便捷 地 生成 复杂 的 、 高 质量 的 统计 
图 形 。 


本 书 中 绝 大 多 数 的 绘图 案例 都 是 基于 ggplot2 实现 的 ， 在 某 种 意义 上 ， 本 书 可 以 认为 
是 一 部 优秀 的 ggplot2 入 门 和 进 阶 手册 。 正 如 之 前 所 说 ，ggplot2 之 所 以 强大 ， 是 因为 
它 不 仅仅 是 一 些 函 数 的 堆砌 ， 而 是 有 其 内 在 的 语法 支持 。 因 为 这 些 特点 ，ggplot2 看 上 
去 更 像 是 一 门 新 的 “语言 "， 从 而 需要 使 用 者 有 一 个 学 习 和 熟练 的 过 程 。 


我 们 知道 ， 学 习 一 门 语言 (中 文 、 英 语 、C++、R 等 )， 大 体 都 要 经 过 一 个 从 语法 到 词 
汇 ， 再 到 句法 应 用 的 过 程 。ggplot2 的 作者 Hadley Wickham 曾 写 过 一 本 介绍 ggplot2 核 
心思 想 的 书籍 《ggplot2: Elegant Graphics for Data Analysis》， 其 中 介绍 了 ggplot2 的 基 
本 概念 和 用 法 ， 相 当 于 为 读者 搭 起 了 ggplot2 的 “语法 ”框架 ， 而 本 书 则 是 一 本 丰富 、 
有 趣 的 “词汇 和 例句 书 ”。 换 句 话说 ， 本 书 侧重 于 解决 具体 问题 ， 是 一 本 实战 秘籍 : 通 
过 它 读者 可 以 了 解 到 ggplot2 生动 、 翔 实 的 一 面 。 比 如 ， 从 如 何 画 点 图 、 线 图 、 柱 状 
图 ， 到 如 何 添加 注解 、 修 改 坐 标 轴 和 图 例 ， 再 到 分 面 的 使 用 和 颜色 的 选取 等 ， 本 书 都 
有 清晰 的 讲解 。 


本 书 由 150 多 个 精 选 的 “技巧 ”组 成 ， 每 个 “技巧 ”都 用 来 解决 一 个 特定 的 绘图 需求 。 
读者 可 以 通过 章节 的 目录 快速 定位 到 自己 遇 到 的 问题 ， 然 后 查阅 相应 的 解决 方案 。 同 
时 ， 作 者 在 大 部 分 的 “技巧 ”之 后 会 进行 一 些 讨论 和 延伸 ， 介 绍 一 些 总 结 出 的 绘图 技 
巧 。 就 我 自己 的 经 历 而 言 ， 在 阅读 本 书 之 前 ， 有 时 用 ggplot2 作 图 会 遇 到 一 些 非常 细 
节 的 问题 ， 例 如 ， 如 何 调整 条 形 图 的 顺序 ， 如 何 修改 图 例 的 外 观 ， 如 何 选择 文字 的 大 


小 和 字体 ? 这 些 问题 都 会 让 我 花费 很 多 时 间 来 搜索 解决 方案 。 而 在 我 把 这 本 书 通读 一 
遍 之 后 ， 很 多 问题 立刻 迎刃而解 。 我 相信 ， 本 书 对 于 ggplot2 和 数据 可 视 化 的 学 习 都 
是 大 有 神 益 的 。 


当然 ， 本 书 并 不 仅仅 局 限于 ggplot2 的 介绍 。 作者 的 理念 是 用 合适 的 工具 来 完成 合适 
的 绘图 任务 ， 所 以 在 本 书 的 第 2 章 、 第 13 章 和 第 14 章 ， 读者 也 可 以 学 到 许多 其 他 有 
用 的 绘图 函数 和 工具 ， 来 适应 各 种 复杂 的 需求 。 


本 书 的 三 位 译 者 为 本 书 中 文 版 的 面世 付出 了 大 量 的 时 间 和 精力 ， 其 中 肖 楠 翻译 了 第 
7-_11 章 和 附录 ， 邓 一 硕 翻译 了 第 2~6 章 ， 魏 太 云 翻译 了 前 言 、 第 1 章 和 第 12~15 章 。 
三 位 译 者 均 是 统计 之 都 《http://cos.name/) 的 成 员 ， 他 们 也 是 当前 国内 RR 语 言 社区 的 
领军 人 物 ， 曾 翻译 了 许多 RR 语言 的 经 典 教材 和 书籍 ， 并 通过 组 织 中 国 R 语言 会 议 、 开 
办 COS 数据 分 析 沙龙 、 参 与 论坛 问题 讨论 、 撰 写 博 客 、 整 理 文档 、 编 写 软件 包 等 多 种 
方式 为 R 语言 社区 做 出 了 诸多 贡献 。 值 得 一 提 的 是 ， 本 书 13.1 节 中 介绍 的 corrplot 软 
件 包 ， 正 是 由 译 者 之 一 的 魏 太 云 开发 完成 的 。 统 计 之 都 团队 作为 国内 R 语言 最 早 的 一 
批 布道 者 之 一 ， 有 幸 见证 了 RR 语言 在 国内 兴起 的 整个 过 程 。 从 网 站 创始 人 谢 益 辉 开始 
在 个 人 博客 上 连载 R 语言 的 教程 和 心得 ， 到 2008 年 第 一 届 中 国 R 语言 会 议 的 召开 ， 
再 到 如 今 众 多 R 语言 中 文 版 书籍 的 面世 ， 我 相信 其 中 的 每 一 步 都 是 国内 统计 学 、 以 及 
更 广义 的 数据 科学 不 断 向 前 发 展 的 印记 。 我 们 也 希望 更 多 的 有 志 之 士 加 入 到 统计 之 都 
的 团队 之 中 ， 为 国内 统计 学 和 数据 科学 贡献 自己 的 力量 。 


本 书 的 译 者 力求 使 翻译 准确 、 生 动 ， 但 玻 漏 之 处 在 所 难免 ， 欢 迎 读者 予以 指正 。 为 了 
让 读者 方便 地 获取 和 提交 勘误 信息 ， 我 们 建立 了 本 书 的 翻译 项 目 页 面 : https://github. 
com/cosname/gcookbook-translation。 读 者 也 可 以 在 统计 之 都 的 图 书 出 版 栏目 http:// 
cos.name/books/) 留言 或 提问 。 


本 书 的 出 版 离 不 开 众多 人 士 的 大 力 帮 助 ， 我 们 要 郑重 感谢 爱 荷 华 州立 大 学 的 王 芯 同 
学 、 中 国人 民 大 学 的 陈 森 同学 和 浙江 大 学 的 张 政 同学 ， 他 们 在 本 书 的 翻译 过 程 中 提出 
了 很 多 中 肯 的 意见 。 没 有 他 们 的 帮助 ， 本 书 很 难 完 成 。 此 外 ， 我 们 还 要 感谢 人 民 邮 电 
出 版 的 杨 海 玲 女士 和 编辑 们 ， 他 们 的 专业 精神 让 我 叹服 。 
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审 校 者 介绍 


印 怡 轩 ， 普 渡 大 学 统计 系 在 读 博 士 ， 统 计 之 都 理事 会 成 员 。 合 作 翻 译 出 版 了 《ggplot2: 
数据 分 析 与 图 形 艺术 》、《R 语言 编程 艺术 》 等 图 书 ， 参 与 编写 了 R2SWF、rARPACK、 
showtext、Layer、rationalfun 、fun 等 R 软件 包 。 感 兴趣 的 方向 有 函数 型 数据 分 析 、 统 
计 计 算 和 数据 可 视 化 等 。 





出 





mh 


前 


几 年 前 读 研 时 我 开始 用 R， 主 要 用 来 分 析 我 在 科研 工作 中 收集 到 的 数据 。 我 使 用 R 首 
先是 想 摆脱 SPSS 这 样 的 统计 软件 的 禁 钢 ， 即 严格 的 环境 和 死板 的 分 析 。 更 何况 ，R 
是 免费 的 ， 所 以 我 用 不 着 说 服 别人 为 我 购买 一 套 这 样 的 软件 一 一 这 对 一 个 穷 研究 生来 
说 是 相当 的 重要 ! 此 后 ， 随 着 我 对 R 的 了 解 不 断 深入 ， 我 才 发 现 原来 R 还 可 以 绘制 出 
非常 优秀 、 动 人 的 数据 图 形 。 


本 书 的 每 个 “技巧 ”中 ， 都 列 出 了 一 个 问题 和 对 应 的 解决 方法 。 在 大 多 数 情况 下 ， 我 
提供 的 并 不 是 R 中 唯一 的 实现 方法 ， 但 却 是 我 认为 的 最 佳 方案 。R 如 此 受 欢迎 的 一 个 
重要 原因 是 它 有 很 多 附加 的 软件 包 ， 每 一 个 软件 包 都 为 R 提供 了 一 些 独特 的 功能 。 在 
R 中 也 有 很 多 可 视 化 方面 的 软件 包 ， 但 本 书 主要 使 用 ggplot2〈 声 明 ， 我 现在 工作 的 一 
部 分 就 是 开发 ggplot2， 但 是 ， 在 我 还 没 意 识 到 我 可 能 会 从 事 与 ggplot2 相关 的 工作 之 
前 ， 我 已 经 完成 了 本 书 的 大 部 分 工作 )。 


本 书 并 不 想 罗 列 五 花 八 门 的 方法 ， 成 为 R 数据 可 视 化 的 综合 手册 ， 但 是 我 希望 当 你 想 
绘制 所 需 图 形 的 时 候 ， 本 书 能 够 对 你 有 所 帮助 。 或 者 说 ， 当 你 不 知道 怎么 画 的 时 候 ， 
翻 一 翻 这 本 书 或 许 就 可 以 找到 一 些 可行 的 方案 。 


方法 
本 书面 向 的 读者 需要 对 R 至 少 有 一 些 基本 的 了 解 。 书 中 的 技巧 会 让 你 明白 如 何 解决 一 


些 特定 的 问题 。 在 使 用 例子 的 时 候 ， 我 力图 简单 明了 ， 这 样 你 就 会 明白 它们 的 工作 机 
理 ， 并 可 以 方便 地 把 解决 方法 应 用 到 自己 的 问题 上 。 


软件 和 平台 说 明 


书 中 的 大 部 分 “技巧 ”都 是 用 ggplot2 完成 的 ， 有 些 “ 技 巧 ”需要 ggplot2 的 最 新 版 本 
0.9.3， 这 样 也 就 要 求 有 一 个 版 本 相对 较 新 的 R 一 一 你 可 以 在 R 的 官方 网 站 获取 最 新 版 
本 的 R。 


如 果 你 对 ggplot2 不 熟悉 ， 请 参阅 附录 A， 那 里 对 该 包 有 一 个 简要 的 说 明 . 





安装 了 R 后 ， 你 可 以 再 安装 一 些 必 要 的 包 。 除 了 ggplo 之 外 ， 你 还 可 以 选择 安装 
gcookbook 包 ( 它 包含 了 本 书 大 多 数 例子 的 数据 集 )。 要 同时 安装 这 两 个 包 ， 只 需 运 行 命令 : 


install.packages ("gq ") 
install.packages ("g ") 


你 可 能 会 被 问 到 选择 CRAN (Comprehensive R Archive Network) 镜像 的 问题 。 一 般 而 
言 ， 任 何 一 个 镜像 都 可 以 正常 工作 ， 不 过 最 好 选择 一 个 离 你 更 近 的 ， 因 为 这 样 速度 会 
更 快 。 安 装 完 包 后 ， 每 次 需要 使 用 ggplot2 包 时 在 R 会 话 中 运行 : 

library (ggplot2) 
本 书 中 的 技巧 总 是 假设 你 已 经 加 载 了 ggplot2， 所 以 不 会 显示 这 一 行 代码 。 
如 果 你 看 到 这 样 的 错误 ， 意 味 着 你 忘记 了 加 载 ggplot2。 

错误 ; 找 不 到 函数 "ggplot" 
英文 版 R 的 错误 提示 是 : 

Error: could not find function "ggplot" 


R 的 主要 运行 平台 是 Mac OS X、Linux 和 Windows， 本 书 中 所 有 的 “技巧 ”都 可 以 在 
这 些 平台 上 运行 。 在 保存 位 图 输出 的 时 候 ， 会 有 平台 的 差异 ， 详 情 参见 第 14 章 。 


本 书 的 排版 约定 


本 书 采用 的 体例 如 下 : 


* 等 宽 字 体 (constant width): 表示 程序 清单 ， 以 及 段落 中 引用 的 程序 元 素 ， 如 变量 或 
函数 名 、 数 据 库 、 数 据 类 型 、 环 境 变 量 、 语 句 和 关键 字 。 


* 加 粗 的 等 宽 字体 (constant width bold): 表示 需要 用 户 手动 输入 的 命令 或 其 他 文本 。 
* 斜 的 等 宽 字 体 (Constant width italic): 表示 应 该 用 用 户 所 提供 的 值 或 根据 上 下 文 确 
定 的 值 来 替换 的 文本 。 


Ee 这 个 图 标 表示 一 个 提示 、 建 议 或 者 一 般 的 注 记 。 





代码 示例 的 使 用 


本 书 的 目标 是 帮助 你 完成 工作 。 一 般 而 言 ， 你 可 以 在 自己 的 程序 和 文档 中 使 用 本 书 中 


2 前 言 


的 代码 ， 如 果 你 要 复制 的 不 是 很 大 一 部 分 代码 ， 则 无 须 取得 我 们 的 许可 。 例 如 ， 你 可 
以 在 程序 中 使 用 本 书 中 的 多 个 代码 块 ， 无 须 获取 我 们 许可 。 但 是 ， 要 销售 或 分 发 来 源 
于 0’Reilly 图 书 中 的 示例 的 光盘 则 必须 得 到 许可 。 通 过 引用 本 书 中 的 示例 代码 来 回答 
问题 时 ， 不 需要 事先 获得 我 们 的 许可 。 但 是 ， 如 果 你 的 产品 文档 中 融合 了 本 书 中 的 大 
量 示 例 代码 ， 则 需要 取得 我 们 的 许可 。 


我 们 很 欢迎 引用 时 给 出 署名 ， 但 不 做 要 求 。 署 名 一 般 包括 书 名 、 作 者 、 出 版 社 和 
ISBN。 例 如 “R Graphics Cookbook by Winston Chang (O'Reilly). Copyright 2013 Winston 
Chang, 978-1-449-31695-2”。 


如 果 你 觉得 你 对 例子 代码 的 使 用 已 经 超出 了 合理 程度 或 者 上 文 所 述 的 许可 范围 ， 请 通 
过 permissions@Ooreillycom 联系 我 们 。 


我 们 的 联系 方式 


如 果 你 想 就 本 书 发 表 评论 或 有 任何 疑问 ， 敬 请 联系 出 版 社 。 





O’Reilly Media Inc. 
1005 Gravenstein Highway North 
Sebastopol, CA 95472 


中 国 : 


北京 市 西城 区 西直门 南大 街 2 号 成 铭 大 厦 C 座 807 室 (100035) 
奥 莱 利 技术 咨询 (北京 ) 有 限 公司 


我 们 还 为 本 书 建立 了 一 个 网 页 ， 其 中 包含 了 勘误 表 、 示 例 和 其 他 额外 的 信息 。 你 可 以 
通过 如 下 地 址 访问 该 网 页 : 


http://oreil.ly/R_Graphics_Cookbook 
关于 本 书 的 技术 性 问题 或 建议 ， 请 发 邮件 到 : 
bookquestions@oreilly.com 


欢迎 登录 我 们 的 网 站 (http://www.oreilly.com) ， 查 看 更 多 我 们 的 书籍 、 课 程 、 会 议和 
最 新 动态 等 信息 。 


我 们 的 其 他 联系 方式 如 下 : 


玫 
串 
w 


Facebook: http://facebook.com/oreilly 
Twitter: http://twitter.com/oreillymedia 
YouTube: http://www.youtube.com/oreillymedia 


没有 一 本 书 的 诞生 可 完全 归结 为 个 人 的 成 果 。 本 书 的 完成 得 到 了 很 多 人 直接 或 间接 
的 帮助 。 我 要 感谢 R 社区 创造 并 培育 了 一 个 积极 活跃 的 生态 系统 。 非 常 感谢 Hadley 


Wickham 的 诸多 帮助 :他 编写 了 本 书 所 依赖 的 软件 包 ggplot2， 并 在 O"Reilly 出 版 社 考 
虑 出 版 R 图 形 书籍 的 时 候 推 荐 了 我 ， 他 还 为 我 打开 了 一 扇 深 入 了 解 R 的 窗户 。 


感谢 本 书 的 技术 审 稿 人 Paul Teetor、Hadley Wickham、Dennis Murphy 和 Erik Iverson。 
他 们 渊博 的 知识 和 对 细节 的 重视 极 大 地 提高 了 本 书 的 质量 。 我 还 要 感谢 O"Reilly 出 版 
社 积极 推进 此 书 的 编辑 们 : Mike Loukides 在 初始 阶段 给 了 我 很 多 指导 ，Courtney Nash 
伴 我 走 到 了 最 后 。 此 外 ， 我 还 要 郑重 感谢 O"Reilly 的 Holly Bauer 及 制作 团队 的 其 他 成 
员 ， 他 们 从 头 到 尾 耐 心地 做 了 很 多 细致 的 编辑 工作 ， 并 为 此 书 增添 了 不 少 特色 。 


最 后 ， 我 还 要 感谢 我 的 妻子 Sylia， 感 谢 她 一 贯 的 支持 和 理解 一 一 当然 不 只 是 在 写本 书 
的 时 候 。 
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R 基 础 





本 章 包 括 以 下 基础 知识 ， 安 装 包 、 使 用 包 和 加 载 数据 。 
如 果 你 想 快速 上 手 ， 本 书 大 多 数 技巧 都 需要 安装 ggplot2 和 gcookbook 包 。 运 行 下 面 
命令 来 安装 : 
install.packages (c( , )) 
然后 ， 在 每 个 R 会 话 中 ， 你 需要 在 运行 本 书 的 例子 之 前 先 加 载 它们 : 


library (ggplot2) 
library (gcookbook) 





[二 附录 A 提供 了 一 个 关于 ggplot2 绘图 包 的 简介 ， 主 要 是 面向 不 热 悉 ggplot2 的 
a 读者 。 
bo 二 


R 中 的 包 是 一 些 为 了 便于 分 发 和 传播 而 封装 在 一 起 的 函数 和 (或 ) 数据 集 (可 以 没有 
数据 集 ) 的 集合 。 在 你 的 电脑 中 安装 软件 包 ， 便 可 以 扩展 R 的 功能 。 如 果 一 个 R 用 户 
编写 了 一 个 包 并 觉得 这 个 包 对 其 他 R 用 户 可 能 有 用 ， 那 么 ， 这 位 R 用 户 就 可 以 通过 软 
件 包 仓库 将 该 包 发 布 。 发 布 R 软件 包 的 最 主要 的 软件 包 仓 库 是 CRAN (Comprehensive 
R Archive Network) ， 不 过 也 有 其 他 的 仓库 ， 如 Bioconductor 和 Omegahat。 


1.1 安装 包 
问题 
如 何 从 CRAN 安装 R 包 ? 


方法 
使 用 install.packages () 函数 来 安装 包 ， 括 号 中 写 上 要 安装 的 包 名 。 以 安装 ggplot2 


1 


包 为 例 ， 运 行 : 

install.packages ("ggplor2") 
此 时 系统 可 能 提示 你 选择 一 个 下 载 镜 像 ， 可 以 选择 离 你 最 近 的 一 个 ， 如 果 想 要 确保 包 
的 版 本 是 最 新 的 ， 那 就 选择 Austria 站 点 ， 因 为 这 是 CRAN 的 主 服 务 器 。 


讨论 
当 R 安装 一 个 包 的 时 候 ， 该 包 依赖 的 所 有 包 也 都 会 被 自动 安装 。 


CRAN 是 R 包 的 仓库 ， 在 全 球 范围 内 有 很 多 镜像 ， 它 是 R 默认 使 用 的 库 。 此 外 ， 
还 有 几 个 软件 包 仓库 ， 如 Bioconductor， 它 是 与 基因 组 数据 分 析 相 关 的 包 的 软件 包 
仓库 。 


1.2 加载 包 

问题 

如 何 加 载 一 个 已 经 安装 了 的 包 ? 
方法 


使 用 library() 函数 ， 括 号 中 写 上 要 加 载 的 包 名 。 以 加 载 ggplot2 包 为 例 ， 运 行 : 
library (ggplot2) 

当然 ， 必 须 确保 要 加 载 的 包 已 经 被 安装 了 。 

讨论 

本 书 的 大 多 数 技巧 都 需要 在 运行 代码 前 加 载 包 ， 无 论 是 为 了 绘图 (ggplot2 包 ) 还 是 为 

了 加 载 例子 中 的 数据 集 (MASS 和 gcookbook 包 )。 


R 的 一 个 不 寻常 之 处 是 软件 包 (package) 和 软件 库 〈library) 的 术语 区 别 。 尽管 我 们 
使 用 library() 函数 来 加 载 包 (package)， 但 一 个 包 并 不 是 一 个 软件 库 ， 如 果 你 不 幸 
犯 此 错误 ， 可 能 会 激怒 一 些 资深 的 R 用 户 。 


软件 库 指 的 是 一 个 包含 了 若干 软件 包 的 目录 。 你 既 可 以 拥有 一 个 系统 级 别 的 软件 库 ， 
也 可 以 针对 每 个 用 户 单独 设立 一 个 软件 库 。 


1.3 加载 分 隔 符 式 的 文本 文件 


问题 
如 何 加 载 一 个 分 隔 符 式 的 文本 文件 中 的 数据 ? 
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方法 
加 载 喜 号 分 隔 组 (CSV) 数据 的 最 常用 方法 是 : 
data <-read.csv("datafile.csv") 
讨论 
由 于 数据 文件 有 许多 不 同 的 格式 ， 为 了 加 载 它们 ， 提 供 了 很 多 对 应 的 选项 。 如 果 一 个 
数据 集 首 行 没有 列 名 : 
data <-read.csv(", 
得 到 的 数据 框 的 列 名 将 是 V1、V2 等 ， 你 可 能 想 要 重 命名 列 : 
名 手动 为 济 名 南 什 
names (data) <-c("I 
还 可 以 用 sep 参数 来 设置 分 隔 符 号 。 如 果 是 空格 分 隔 ， 使 用 sep="” " : 如 果 是 制 表 符 
分 隔 ， 使 用 \t。 
data <-read.csv("datafile.csv", sep="\t") 
默认 情况 下 ， 数 据 集中 的 字符 串 (string) 会 被 视 为 因子 (factor) 处 理 。 假 设 下 面 是 
你 的 数据 文件 ， 然 后 ， 你 用 read.csv() 来 读 取 : 


ast", "Sex", "Number" 


", header=FALSE) 





Column3") 












"Dr.", "Seuss", "M", 49 
"n,nStudent", NA 21 
得 到 的 数据 框 将 会 把 First、Last 等 存储 为 因子 ， 尽 管 此 时 将 它们 视 为 字符 串 
(或 使 用 R 中 的 术语 ， 字 符 : character) 更 为 合理 。 为 了 区 别 这 一 点 ， 可 以 设置 
stringsAsFactors=FALSE。 如 果 有 些 列 应 该 被 处 理 为 因子 格式 ， 你 可 以 再 逐个 转换 : 
data <-read.csvI"datafile.csv", stringsAsFactors=FALSE) 


提 转换 为 因子 
data$sex <-factor (data$Sex) 


str (data) 


'data.frame': 3 obs. of 4 variables: 

$ First : chr "Currer" "Dr." "™ 

$ Last : chr "Bell" "Seuss" "Student" 

$ Sex : Factor w/ 2 levels "F","M": 1 2 NA 
$ Number: int 2 49 21 


或 者 ， 你 可 以 在 加 载 的 时 候 不 做 设置 (字符 串 自 动 转换 为 因子 )， 加 载 之 后 再 对 需要 
的 列 进行 因子 到 字符 的 转换 。 

另 见 

read,csv() 是 对 read.table() 一 个 便捷 的 封装 函数 。 如 果 需 要 更 多 的 输入 控制 ， 参 
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见 ?read.table。 


1.4 ”从 Excel 文件 中 加 载 数据 


问题 
如 何 从 Excel 文件 中 加 载 数据 ? 


方法 
xlsx 包 中 的 函数 read.xlsx() 可 以 读 取 Excel 文件 ， 下 面 的 代码 将 会 读 取 Excel 中 的 
第 一 个 工作 表 : 

# 只 需要 安装 一 次 


install.packages( ) 


library(xslx) 


data <-read.xlsx( Pt 
如 果 需 要 阅读 老 版 本 的 Excel 文件 (.xls 格式 )，gdata 包 提 供 了 函数 read.xls |(): 
# 只 需要 安装 一 次 


install.packages ( ) 


library (gdata) 
赴 读 取 第 一 张 工作 表 
data <-read.xls( ) 


讨论 
使 用 read.xlsx() 加 载 工作 表 时 ， 既 可 以 用 序数 参数 sheetIndex 来 指定 ， 也 可 以 用 
工作 表 名 参数 sheetName 来 指定 : 


data <-read.xlsx( ,sheetIndex= ) 
data <-read.xlsx( ， sheetName= ) 

使 用 read.xls() 加 载 工作 表 时 ， 可 以 用 序数 参数 sheet 来 指定 : 
data <-read.xls( ，sheet=2) 


安装 xlsx 和 gdata 包 时 需要 在 电脑 上 安装 其 他 软件 。 对 于 xlsx 包 ， 需 要 安装 Java ; 对 
于 gdata 包 ， 需 要 安装 Perl。Perl 在 Linux 和 Mac OS X 上 是 系统 自 带 的 ， 但 在 Win- 
dows 上 没有 。 如 果 是 在 Windows 上 ， 你 需要 安装 ActiveState Perl， 其 社区 版 本 可 以 免 
费 获得 〈http: //www. active state.com/active perl)。 

如 果 你 不 想 这 样 折腾 ， 更 简单 的 替代 方案 是 打开 Excel 文件 后 另存 为 标准 的 文本 格式 ， 
比如 CSV。 
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另 见 
输入 ?read.xls 和 ?read.xlsx 来 查看 更 多 关于 读 取 文件 的 选项 。 


1.5 从 SPSS 文件 中 加 载 数据 


问题 
如 何 从 SPSS 文件 加 载 数据 ? 
方法 
foreign 包 中 的 函数 read. spss () 可 以 读 取 SPSS 文件 。 若 要 读 取 SPSS 文件 中 的 第 一 
张 表 : 
闪 只 需 首 次 使 用 时 安装 
install .packages( ) 


library(foreign) 
data <-read.spss( ) 


讨论 
foreign 包 中 还 有 很 多 读 取 其 他 格式 文件 的 函数 ， 包 括 以 下 几 种 。 


。 read.octave() : Octave 和 MATLAB。 
。 read.systat() : SYSTAT。 

。 read.xport () : SAS XPORT. 

。 read.dta() : Stata。 


另 见 
输入 1s ("package:foreign") 可 以 查看 该 包 中 的 所 有 函数 的 列表 。 


R 基 础 5 


第 2 章 


快速 探索 数据 





虽然 本 书 中 大 部 分 图 形 都 是 通过 ggplo。2 包 绘制 的 ， 但 这 并 不 是 R 绘制 图 形 的 唯一 方法 。 要 
快速 探索 数据 ， 有 时 使 用 R 基础 包 中 的 绘图 函数 会 很 有 用 。 这 些 函数 随 R 软件 默认 安装 ， 
无 需 另行 安装 附加 包 。 它 们 简短 易 输入 ， 处 理 简单 问题 时 使 用 方便 ， 且 运行 速度 极 快 。 

如 果 你 想 绘制 较为 复杂 的 图 形 ， 那 么 ， 转 用 ggplot2 包 通 常 是 更 好 的 选择 。 部 分 原因 
在 于 ggplot2 提供 了 一 个 统一 的 接口 和 若干 选项 来 替代 基础 绘图 系统 中 对 图 形 的 修 修 
补 补 和 各 种 特例 。 一 旦 掌握 了 ggplot 的 工作 机 制 ， 你 就 可 以 应 用 这 些 知识 来 绘制 从 
散 点 图 、 直 方 图 到 小 提琴 图 和 地 图 等 各 种 统计 图 形 了 。 

本 章 介 绍 的 技巧 演示 了 用 基础 绘图 系统 绘制 统计 图 形 的 方法 ， 也 对 如 何 用 ggplot2 中 
的 qplot () 函数 绘制 同样 的 图 形 做 出 了 说 明 。qplot () 函数 的 语法 与 基础 绘图 系统 类 
似 ， 对 于 每 一 个 由 qplot () 函数 绘制 的 图 形 ， 技 巧 中 也 提供 了 用 更 强大 的 ggplot () 
函数 来 绘图 的 等 价 解决 方案 。 

如 果 你 已 经 知道 如 何 使 用 基础 图 形 系 统 ， 那 么 当 你 想 绘制 更 复杂 的 图 形 时 ， 可 以 将 这 
些 例子 放 在 一 起 进行 对 比 以 帮助 你 过 渡 到 ggplot2 系统 。 


2.1 绘制 散 点 图 
问题 

如 何 绘制 散 点 图 ? 

方法 


使 用 plot () 函数 可 绘制 散 点 图 ( 见 图 2-1) ， 运 行 命令 时 依次 传递 给 plot () 函数 一 个 
向 量 x 和 一 个 向 量 y。 








plot (mtcars$wt, mtcars$mpg) 











°°%° o 
o 
e oo 
T T | 
2 3 4 5 
mtcarsSwt 








图 2-1 基础 绘图 系统 绘制 的 散 点 图 
对 于 ggplot2 系统 ， 可 用 qplot () 函数 得 到 相同 的 绘图 结果 〈 见 图 2-2); 


library (ggplot2) 
gplot (mtcars$wt, mtcars$mpg) 

















图 2-2 使 用 ggplot2 包 中 qplot () 函数 绘制 的 散 点 图 
如 果 绘 图 所 用 的 两 个 参数 向 量 包 含 在 同一 个 数据 框 内 ， 则 可 以 运行 下 面 的 命令 : 
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qplot (wt, mpg, data=mtcars) 
才 这 与 下 面 等 价 
ggplot (mtcars, aes{x=wt, y=mpg)) + geom point() 


另 见 
更 多 关于 绘制 散 点 图 的 详细 内 容 可 参见 本 书 第 5 章 。 


2.2 ”绘制 折线 图 


问题 

如 何 绘制 折线 图 ? 

方法 

使 用 plot () 函数 绘制 折线 图 ( 见 图 2-3 左 图 ) 时 需 向 其 传递 一 个 包含 x 值 的 向 量 和 一 
个 包含 y 值 的 向 量 ， 并 使 用 参数 type="1" : 


plot (pressure$temperature, pressure$pressure, type="1") 























1 3 
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1 日 
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pressureStemperature pressureStemperature 








图 2-3 左 图 : 基础 绘图 系统 绘制 的 折线 图 右 图 : 向 图 形 中 添加 数据 点 和 另 一 条 折线 
如 果 要 向 图 形 中 添加 数据 点 或 者 多 条 折线 〈 见 图 2-3 右 图 )， 则 需 先 用 plot () 函数 绘 
制 第 一 条 折线 ， 再 通过 points () 函数 和 lines () 函数 分 别 添加 数据 点 和 更 多 折线 : 


plot (pressureStemperature，PpressureSpressure，type="17) 
points (pressure$temperature, pressure$pressure) 


lines (pressure$temperature, pressure$pressure/?, col="re6") 
points (pressure$temperature, pressure$pressure/’, col="red") 


在 ggplot2 中 ， 可 以 使 用 gplot () 函数 并 将 参数 设 定 为 geom="line" 得 到 类 似 的 绘图 
结果 〈 见 图 2-4): 


library(ggplot2) 
qplot (pressure$temperature, pressure$pressure, geom="1ine") 


8 第 2 章 














图 2-4 左 图 : ggplot2 中 的 qplot () 函数 绘制 的 折线 图 右 图 : 添加 数据 点 的 折线 图 
如 果 函 数 的 两 个 参数 向 量 已 包含 在 同一 个 数据 框 中 ， 则 可 以 运行 下 面 的 语句 : 


qplot (temperature, pressure, data=pressure, geom="line") 
## 这 等 价 于 下 面 的 命令 

ggplot (pressure, aes(x=temperature, y=pressure)) + geom line() 

# 添加 数据 点 

qplot (temperature, pressure, data=pressure, geom=c ("line", "F )) 

# 这 等 价 于 下 面 的 命令 

ggplot (pressure, aes(x=temperature, y=pressure)) + geom line() + geom point() 


另 见 
更 多 关于 绘制 折线 图 的 详细 内 容 可 参见 本 书 第 4 章 。 


2.3 ”绘制 条 形 图 
问题 

如 何 绘制 条 形 图 ? 

方法 


对 变量 的 值 绘制 条 形 图 ( 见 图 2-5 左 图 )， 可 以 使 用 barplot () 函数 ， 并 向 其 传递 两 
个 向 量 作为 参数 ， 第 一 个 向 量 用 来 设 定 条 形 的 高 度 ， 第 二 个 向 量 用 来 设 定 每 个 条 形 对 
应 的 标签 (可 选 )。 


如 果 向 量 中 的 元 素 已 被 命名 ， 则 系统 会 自动 使 用 元 素 的 名 字 作 为 条 形 标签 : 

barplot (BoD$demand, names.arg=BOD$Time) 
有 时 候 ,“ 条 形 图 ”表示 的 是 分 组 数据 中 各 个 元 素 的 频数 〈 见 图 2-5 右 图 )。 这 种 条 形 
图 跟 直方 图 有 些 类 似 ， 不 过 ， 其 用 离散 取 值 的 x 轴 替代 了 直方 图 中 连续 取 值 的 zx 轴 。 
要 计算 向 量 中 各 个 类 别 的 频数 ， 可 以 使 用 table() 函数 。 
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table (mtcars$cyl) 
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图 2-5 左 图 : 基础 绘图 系统 绘制 的 条 形 图 右 图 : 向 量 元 素 的 频数 条 形 图 
只 需 将 上 面 的 表格 结果 传递 给 barplot () 函数 即 可 绘制 频数 条 形 图 : 


# 生成 频数 表 





barplot (table (mt 
对 于 ggplot2 系 
量 值 的 条 形 图 时 需 将 参数 设 定 为 
连续 取 值 和 离散 取 值 时 输出 结果 






ot () pp 以 的 绘图 结果 ( 见 图 2 2-6)。 绘 制 变 
时 x 分 别 为 


library 
wplot 








qplot ( meh 
— 
| 15 
1， 滥 中 
让 
名 | a 
9 9 
BODSTime “factor(BODSTime) 


图 2-6 左 图 : qplot () 函数 绘制 的 连续 变量 x 的 变量 值 条 形 图 右 图 : 将 变量 x 转化 为 因子 型 
变量 ( 注意 ， 横 坐标 上 没有 6 这 个 类 别 ) 

qplot () 函数 也 可 以 用 来 绘制 分 组 变量 的 频数 条 形 图 ( 见 图 2-7)， 事 实 上 ， 这 是 
ggplot2 绘制 条 形 图 的 默认 方式 ， 它 比 绘制 变量 值 条 形 图 的 命令 更 简短 。 再 提醒 一 次 ， 
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注意 连续 x 轴 和 离散 x 轴 的 差异 


lot (mtca 
中 中 
8 


mtcarsScyl tactor(mtcarsScy!) 


2-7 左 图 : qplot () 函数 绘制 的 连续 变量 x 的 频数 条 形 图 右 图 : 将 cyl 转化 为 因子 型 变量 


如 果 参 数 向 量 包 含 在 同一 个 数据 框 内 ， 则 可 以 运行 下 面 的 语句 ; 





另 见 
更 多 关于 
2.4 绘制 直方 图 
问题 

如 何 
方法 


可 以 使 用 hist () 函 





条 形 图 的 详细 内 容 可 参见 本 书 第 3 章 





制 直方 图 来 查看 一 维 数 据 的 分 布 特征 ? 


直方 图 ( 见 图 2-8)， 使 用 时 需 向 其 传递 一 个 向 量 : 
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Histogram of mtcarsSmpg Histogram of mtcars$mpg 
c: | | 
dl es 
| 上 一 [a | 
§ 5 = 二 | | 
§ § 
名 各 oo 于 
和 全 | 学 SN 「 
机 | 1 | EE | 
]| | | | | 中 
oJ 二 一 一- 一 上 一 °C 
I 多 
mtcars$mpg mtcarsS$mpg 





图 2-8 左 图 : 基础 绘图 系统 绘制 的 直方 图 右 图 : 使 用 更 多 分 组 。 注 意 : 由 于 组 距 变 小 ,每 
组 对 应 的 样本 数 有 所 减少 


图 结果 〈 见 图 2-9): 





对 于 ggplot2 包 ， 可 以 使 用 qplot () 函数 得 到 同样 的 






ygplot (mtcars, aes (x=mpg)) + geor 


i 


mtcarsSmpg mtcarsSmpg 


count 
count 





图 2-9 左 图 : ggplot2 中 qplot() 函数 绘制 的 直方 图 ， 组 距 为 默认 值 ” 右 图 : 组 距 更 大 的 直方 图 
另 见 





参见 6.1 节 和 6.2 节 


2.5 绘制 箱 线 图 


问题 
如 何 绘制 箱 线 图 以 对 不 同 分 布 进行 比较 ? 


方法 
使 用 plot () 函数 绘制 箱 线 图 人 2-10) 时 向 其 传递 两 个 向 量 : x 和 y。 当 x 为 因子 
型 变量 与 数值 型 变量 对 应 ) 时 ， 它 会 默认 绘制 箱 线 图 : 

plot (ToothGrowth$supp, ToothGrowth$len) 
当 两 个 参数 向 量 包含 在 同一 个 数据 框 中 时 ， 也 可 以 使 用 公式 语法 。 公 式 语法 允许 我 们 
在 x 轴 上 使 用 变量 组 合 ， 如 图 2-10 所 示 。 

才 公式 语法 

boxplot (len ~ supo, data = ToothGrowth) 


# 在 x 办 上 引入 两 变量 的 交互 
boxplot (len ~ supp + dose, data = ToothGrowth) 








站 | 4 自 . 守 日 
| je 


























Ww oa vcz 











图 2-10 左 图 : 基础 绘图 系统 绘制 的 箱 线 图 “ 右 图 : 基于 多 分 组 变量 的 箱 线 图 
对 于 ggplot2 包 ， 你 可 以 使 用 qplot () 函数 绘制 同样 的 图 形 〈 见 图 2-11 ) ， 使 用 时 将 参 
数 设 定 为 geom="boxplot" : 


library(ggplot2) 
qplot (ToothGrowth$supp, ToothGrowth$len, geom= 哇 


当 两 个 参数 向 量 在 同一 个 数据 框 内 时 ， 则 可 以 使 用 下 面 的 语句 : 

qplot (supp, len, data=ToothGrowth, geom=" ) 

韦 这 等 价 于 

ggplot (ToothGrowth, aes(x=supp, y=len)) + geom_boxplot () 
使 用 interaction() 函数 将 分 组 变量 组 合 在 一 起 也 可 以 绘制 基于 多 分 组 变量 的 箱 线 图 ， 
如 图 2-11 右 图 所 示 。 本 例 中 ，dose 变量 是 数值 型 ， 因 此 ， 我 们 必须 先 将 其 转化 为 因 


快速 探索 数据 13 


子 型 变量 ， 再 将 其 作为 分 组 变量 : 
替 使 用 三 个 独立 的 向 量 参数 
qplot (interaction (ToothGrowth$supp, ToothGrowth$dose), ToothGrowth$len, geom="boxplot") 
亲 也 可 以 以 数据 框 中 的 列 作为 参数 
gqgplot (interaction (supp, dose), len, data=ToothGrowth, geom="boxplot") 
# 这 等 价 于 
ggplot (ToothGrowth, aes(x=interaction(supp, dose), y=len)) + geom_boxplot () 




















图 2-11 左 图 : qplot () 函数 绘制 的 箱 线 图 “ 右 图 : 基于 多 分 组 变量 的 箱 线 图 





你 可 能 会 注意 到 基础 绘图 系统 绘制 的 箱 线 图 与 ggplot2 略 有 不 同 。 这 是 因为 两 
者 在 绘图 过 程 中 调用 的 计算 分 位 数 的 方法 略 有 差异 . 运行 ?geom_boxplot 
和 ?boxplot ,base 命令 可 以 得 到 更 多 关于 两 者 差异 的 细节 信息 . 


另 见 
更 多 关于 绘制 箱 线 图 的 内 容 参 见 6.6 节 。 
2.6 绘制 函数 图 像 
问题 

如 何 绘制 函数 图 像 ? 

方法 


可 以 使 用 curve () 函数 绘制 函数 图 像 ， 如 图 2-12 左 图 所 示 。 使 用 时 需 向 其 传递 一 个 关 
于 变量 x 的 表达 式 : 


Curve (x*3 - 5*x, from=-4, to=4) 


你 可 以 绘制 任何 一 个 以 数值 型 向 量 作为 输入 且 以 数值 型 向 量 作为 输出 的 函数 图 像 ， 包 
括 你 自己 定义 的 函数 ， 如 图 2-12 右 图 所 示 。 
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图 2-12， 左 图 : 基础 绘图 系统 绘制 的 函数 图 像 ” 右 图 : 绘制 用 户 自 定义 的 函数 
将 参数 设置 为 add=TRUE 可 以 向 己 有 图 形 添加 函数 图 像 : 


弛 绘制 用 户 自 定义 的 函数 图 像 
myfun <- function (xvar) | 
1/(1 + exp(-xvar + 10)) 
} 
Curve (myfun (x), from=0, to=20) 
## 添加 直线 
curve(1-myfun(x)，add = TRUE, col ="red") 


对 于 ggplot2， 可 以 使 用 qplot () 函数 绘制 得 到 同样 的 结果 〈 见 图 2-13)。 使 用 时 需 设 定 
stat="function" 和 geom="line"， 并 向 其 传递 一 个 输入 和 输出 皆 为 数值 型 向 量 的 函数 
library (ggplot2) 
间 将 x 轴 的 取 值 范围 设 定 为 0 到 20 
qplot (c(0, 20), fun=myfun, stat="function", geom="line") 


六 这 著 价 于 


ggplot (data. frame (x=c (0, 20)), aes(x=x)) + stat_function(fun=myfun, geom="line") 

















图 2-13 ”qdplot () 函数 给 制 的 函数 图 像 
另 见 
更 多 关于 绘制 函数 图 像 的 内 容 参见 13.2 节 。 
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第 3 章 
条 形 图 





条 形 图 也 许 是 最 常用 的 数据 可 视 化 方法 ， 通 常用 来 展示 不 同 的 分 类 下 〈 在 x 轴 上 ) 某 
个 数值 型 变量 的 取 值 《 在 > 轴 上 )。 例 如 ， 条 形 图 可 以 用 来 形象 地 展示 四 种 不 同 商品 的 
价格 情况 ， 但 不 适宜 用 来 展示 商品 价格 随时 间 的 变动 趋势 ， 因 为 这 里 时 间 是 一 个 连续 
变量 一 一 尽管 我 们 也 可 以 这 么 做 ， 后 面 会 看 到 这 种 情形 。 

绘制 条 形 图 时 需 特别 注意 一 个 重要 的 细节 : 有 时 条 形 图 的 条 形 高 度 表 示 的 是 数据 集中 
变量 的 频数 ， 有 时 则 表示 变量 取 值 本 身 。 牢 记 这 个 区 别 一 一 这 里 极 易 混淆 ， 因 为 两 者 
与 数据 集 的 对 应 关系 不 同 ， 但 又 对 应 同样 的 术语 。 本 章 将 对 此 进行 深入 讨论 ， 并 分 别 
介绍 这 两 类 条 形 图 的 绘图 技巧 。 


3.1 绘制 简单 条 形 图 


问题 

你 有 一 个 包含 了 两 列 数据 的 数据 框 ， 其 中 一 列 数据 表示 条 形 在 x 轴 上 的 位 置 ， 另 一 列 
表示 每 个 条 形 在 轴 上 对 应 的 高 度 ， 基 于 此 ， 如 何 绘制 条 形 图 ? 

方法 

使 用 ggplot () 函数 和 geom_bar (stat="identity") 绘制 上 述 条 形 图 ， 并 分 别 指定 与 
x 轴 和 yy 轴 对 应 的 变量 ( 见 图 3-1)。 


library (gcookbook) # 为 了 使 





ggplot (pg_mean, aes(x=group, y=weight)) + geom bar(stat="identity") 
讨论 
当 x 是 连续 型 (数值 型 变量 时 ， 条 形 图 的 结果 与 上 图 会 略 有 不 同 。 此 时 ，ggplot 不 是 
只 在 实际 取 值 处 绘制 条 形 ， 而 将 在 x 轴 上 介 于 最 大 值 和 最 小 值 之 间 所 有 可 能 的 取 值 处 绘 
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) 函数 将 连续 型 变量 转化 为 离散 型 变量 





制 条 形 ， 如 图 3-2 所 示 。 我 们 可 以 使 用 f 


'data.frame': 6 obs. of 2 variables: 
$Time :nm 123457 

$ demand: num 8.3 10.3 19 16 15.6 19.8 

- attr(*, "reference")= chr "Al.4, p. 270" 


weight 





tr trtt 


group 





图 3-1 x 轴 为 离散 时 ， 针 对 变量 值 绘制 的 条 形 图 (参数 stat="identity") 


本 例 中 ， 数 据 集中 包含 两 列 分 别 对 应 于 x 和 ? 变量。 如果 你 想 让 条 形 图 的 高 度 与 每 组 
变量 的 频数 相对 应 ， 可 参见 3.3 节 的 内 容 





默认 设置 下 ， 条 形 图 的 填充 色 为 黑 灰色 且 条 
多 的 从 水 了 变 条 开 的 填充 可 通过 
我 们 将 填充 色 和 边框 线 分 别 指定 闪 


图 没有 边框 线 ， 我 们 可 通过 调整 fi11 参 
数 为 条 形 图 添加 边框 线 。 在 图 3-3 中 ， 
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Time factor(Time) 


demand 
demand 


3-2 左 图 : 针对 变量 值 绘制 的 条 形 图 ( 参数 stat="identity" ), x 轴 对 应 的 是 连续 型 变 
量 右 图 : 将 x 转化 为 因子 型 变量 之 后 绘制 的 条 形 图 ( 注意 此 处 缺失 了 取 值 为 6 的 条 形 ) 


了 | 


day 





mean 


3-3 ”所 有 条 形 的 填充 色 和 边框 线 颜色 均 为 单 色 








拼写 color。 然 而 ， 
写 的 参数 并 不 影 


使 用 的 是 英 式 拼写 colour， 而 非 美式 # 


映射 为 英 式 拼写 ， 因 此 输入 美式 拼 






在 ggplot2 中 ， 颜 
ggplot2 会 在 


响 通 者 





另 见 
如 果 你 想 让 条 开 


根据 另 一 个 变量 值 重 排 因子 水 了 
内 容 ， 可 参见 15.8 节 


高 度 对 应 于 每 组 变量 的 频数 ， 可 参见 3.3 节 的 内 容 
见 15.9 节 。 手 动 更 改 因子 水 平顺 序 的 








的 内 





容 


更 多 关于 图 形 着 色 的 内 容 ， 可 参见 本 书 第 12 章 


3.2 ”绘制 簇 状 条 形 图 


问题 
如 何 绘制 基于 某 个 分 类 变量 的 能 状 条 形 图 ? 


方法 
将 分 类 变量 映射 到 fi11 参数 ， 并 运行 命令 geom_bar (position="dodge") 。 


下 面 以 cabbage_exp 数据 集 为 例 演示 一 下 绘图 过 程 ，cabbage_exp 数据 集 包 含 两 个 分 
类 变量 cultivar 和 Date 及 一 个 连续 型 变量 weight。 


library (gcookbook) # 为 了 使 用 数据 
cabbage_exp 


Cultivar Date Weight 
c39 dl16 3.18 
c39 d20 2.80 
c39 d21 2.74 
c52 dl16 2.26 
c52 d20 3.11 
ec52 d21 1.47 


ek 分 别 将 Date 和 Cultivar 肤 射 给 x 而 fill ( 见 图 3-4)。 





3.0- 
2.5- 
芋 20- Cultivar 


1's- 


c52 

















图 3-4” 簇 状 条 形 图 


ggplot (cabbage_exp, aes 
geom_bar (position="d 


讨论 

最 简单 的 条 形 图 通常 只 对 应 一 个 绘制 在 x 轴 上 的 分 类 变量 和 一 个 绘制 在 > 轴 上 的 连续 
型 变量 。 有 时 候 ， 我 们 想 额 外 添加 一 个 分 类 变量 跟 x 轴 上 的 分 类 变量 一 起 对 数据 进行 
分 组 。 此 时 ， 可 通过 将 该 分 类 变量 映射 给 fil1 参数 来 绘制 簇 状 条 形 图 ， 这 里 的 fil1 参 
数 用 来 指定 条 形 的 填充 色 。 在 这 一 过 程 中 必须 令 参 数 position="dodge" 以 使 得 两 组 
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条 形 在 水 平方 向 上 错开 排列 ， 否 则 ， 系 统 会 输出 堆积 条 形 图 (参见 3.7 节 )。 




















图 3-5 添加 了 黑色 边框 线 的 簇 状 条 形 图 ， 这 里 用 了 新 的 调 色 板 
与 映射 给 条 形 图 x 轴 的 变量 类 似 ， 映 射 给 条 形 填充 色 参 数 的 变量 应 该 是 分 类 变量 而 不 
是 连续 型 变量 。 


我 们 可 以 通过 将 geom_bar () 中 的 参数 指定 为 colour="black" 为 条 形 添加 黑色 边 
框 线 ， 可 以 通过 scale_fill_brewer() 或 者 scale_fill_manual() 函数 对 图 形 颜 
色 进 行 设 置 。 在 图 3-5 中 ， 我 们 使 用 RcolorBrewer 包 中 的 Pastell 调 色 盘 对 图 形 
进行 调 色 。 
ggplot (cabbage exp, aes(x=Date, y=Weight, fill=Cultivar)) + 

geom bar (position=" ", state"identity", colour="black") + 

scale_fill brewer (palette="Pastell") 
其 他 图 形 属性 诸如 颜色 colour (指定 条 形 图 的 边框 线 颜 色 ) 和 线 型 (linestyle) 也 
能 用 来 对 变量 进行 分 组 ， 不 过 ， 填 充 色 〈fil1) 也 许 是 最 合 人 心意 的 图 形 属性 。 


注意 ， 如 果 分 类 变量 各 水 平 的 组 合 中 有 缺失 项 ， 那 么 ， 绘 图 结果 中 的 条 形 则 相应 地 略 去 
不 绘 ， 同 时 ， 临 近 的 条 形 将 自动 扩充 到 相应 位 置 。 删 去 上 例 数据 中 的 最 后 一 行 后 ， 可 得 
到 图 3-6。 


ce <- cabbage exp[ :5,] 复制 删除 了 最 后 一 行 的 数据 集 
ce 


Cultivar Date Weight 
c39 dl6 3.18 
c39 d20 2.80 
c39 d21 2.74 
c52 dl6 2.26 
c52 d20 3.11 


ggplot (ce，aes (X=Datey YNeight。 li Onlt aver}y + 
geom_bar (position=" sstat="id ", Colour="black") + 


scale fill brewer (palette=' (a 
如 果 你 的 数据 与 上 面 类 似 ， 那 么 ， 你 可 以 在 分 类 变量 组 合 缺 失 的 那 一 项 为 变量 y 手动 
输入 一 个 NA 值 。 
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5 Cuhivar | 
c39 
c52 


Date 








Weight 

















3-6 ”缺失 条 形 的 艇 状 条 形 图 一 一 临近 的 条 形 自动 扩充 到 相应 位 置 


另 见 
更 多 关于 条 形 图 着 色 的 内 容 ， 可 参见 3.4 节 





根据 另 一 个 变量 值 重 排 因 子 水 平顺 序 的 内 容 可 参见 15.9 节 
3.3 绘制 频数 条 形 图 

问题 

如 果 数 据 集中 每 行 数据 对 应 于 一 个 样本 ， 如 何 针对 样本 频数 绢 


方法 
使 用 geom_bar () 函数 ， 同 时 不 要 映射 任何 变量 到 y 参数 〈 见 图 3-7) 


Fai ;oa very Good 上 deal 


| cut 


3-7 频数 条 形 图 





形 图 ? 


count 


条 形 图 21 


讨论 


diamonds 数据 集 共 有 53 940 行 数据 ， 每 行 数 据 对 应 于 一 颗 钻石 的 品质 





diamonds 

carat cut color clarity depth table price x y = 
1 0.23 Ideal E SI2 61.5 55 326 3.95 3.98 2.43 
2 0.21 。 Premium E Sll 59.8 61 326 3.89 3.84 2.31 
3 0.23 Good E VSl 56.9 65 327 4.05 4.07 2.31 
53539 0.86 Premium a SI2 61.0 58 2757 6.15 6.12 3.74 
53540 0.75 Ideal D sr2 62.2 55 2757 5.83 5.87 3.64 


geom_bar () 函数 在 默认 情况 下 将 参数 设 定 为 stat="bin"， 该 操作 会 自动 计算 每 组 〈 根 
据 x 轴 上 面 的 变量 进行 分 组 ) 变量 对 应 的 观测 数 。 从 图 中 可 以 看 到 ， 切 工 精美 的 钻石 大 
概 有 23 000 颗 。 

本 例 中 ，x 轴 对 应 的 是 离散 型 变量 。 当 x 轴 对 应 于 连续 型 变量 时 ， 我 们 会 得 到 一 张 直 
方 图 ， 如 图 3-8 所 示 


ggplot (diamonds，aes (x=carat)) + geom_bar() 
7500 - 
与 5000 -~ | 
2500 - 
0J 
0 2 4 
carat 





图 3-8 x 轴 对 应 于 连续 型 变量 的 条 形 图 ， 也 即 常 说 的 直方 图 
在 这 个 例子 中 ， 使 用 geom_bar () 和 geom_histogram() 具有 相同 的 效果 。 
另 见 


如 果 不 想 让 ggplot () 函数 自动 计算 每 组 数据 的 行 数 绘制 频数 条 形 图 ， 而 是 想 通 过 数据 
框 中 的 某 列 来 指 参数 的 话 ， 可 以 参见 3.1 节 的 内 容 。 


当然 ， 也 可 以 通过 先 计 算出 每 组 数据 的 行 数 ， 再 将 计算 结果 传递 给 ggplot () 函数 来 给 
制 上 图 。 更 多 关于 数据 描述 的 内 容 ， 可 参见 15.17 节 。 


更 多 关于 直方 图 的 内 容 ， 可 参见 6.1 节 。 
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3.4 条 形 图 着 色 


问题 
如 何 将 条 形 图 中 的 条 形 设 定 为 不 同 的 颜色 ? 


方法 
将 合适 的 变量 映射 到 填充 色 (fi11) 上 即 可 。 


这 里 以 数据 集 uspopchange 为 例 。 该 数据 集 描述 了 美国 各 州 人 口 自 2000 年 到 2010 年 
的 变化 情况 。 我 们 选取 出 人 口 增长 最 快 的 十 个 州 进行 绘图 。 图 中 会 根据 地 区 信息 〈 东 
北部 、 南 部 、 中 北部 、 西 部 ) 对 条 形 进行 着 色 。 


首先 ， 选 取出 人 口 增长 最 快 的 十 个 州 


library(gcookbook) 拉 为 了 使 用 数据 
upc <- subset (uspopchange，rank(Change)> 
upe 





State Abb Wee Change 


Arizona AZ 24.6 
Colorado CO Woot 16.9 
Florida FL South 17.6 
Georgia GA South 18.3 
Idaho ID West 21.1 
Nevada NV West 35.1 
North Carolina NC South 18.5 
South Carolina SC South 15.3 
Texas TX South 20.6 
Utah UT West 23.8 
接 下 来 ， 将 Region 映射 到 fill 并 绘制 条 形 图 〔 见 图 3-9): 
ggplot (upc, aes{x=Abb, y=Change, fill=Region)) + geom bar (stat="identity") 





Region 


B20 - 
是 
| | 


' 
Az co 及 GA ob, pa Nv sc TX UT 











图 3-9 将 分 类 变量 遇 揣 给 f111 参数 
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讨论 

条 形 图 的 默认 颜色 不 太 吸引 眼球 ， 因 此 ， 可 能 需要 借助 函数 scale_fill_brewer() 或 
scale_fill_manual() 重新 设 定 图 形 颜 色 。 这 里 我 们 调用 后 者 。 我 们 通过 把 参数 指定 
为 colour="black" 将 条 形 的 边框 线 设 定 为 黑色 〈 见 图 3-10)。 注 意 : 颜色 的 映射 设 定 
是 在 aes () 内 部 完成 的 ， 而 颜色 的 重新 设 定 是 在 aes () 外 部 完成 的 : 


ggplot (upc，aes (x=reorder (Abb, Change), y=Change, fill=Region)) + 
geom_ bar (stat="identity", colour= KE 二 
scale_fill_manual (values=c ("#6699 
xlab("Stare") 














SCCOR GANG T ID UT AZ NY 
State 











图 3-10 ”分 类 着 色 、 具 有 黑色 边框 线 的 簇 状 条 形 图 ， 条 形 根据 入 口 变动 百分比 排序 
本 例 用 到 了 reorder () 函数 。 在 本 例 中 ， 根 据 条 形 图 的 高 度 进行 排序 比 按照 字母 顺序 
对 分 类 变量 排序 更 有 意义 。 

另 见 

更 多 关于 使 用 reorder () 函数 将 因子 根据 另 一 个 变量 重新 水 平 排序 的 内 容 ， 可 参见 15.9 节 。 
更 多 关于 图 形 着 色 的 内 容 ， 参 见 第 12 章 。 


3.5 ”对 正 负 条 形 图 分 别 着 色 


问题 
如 何 根据 条 形 对 应 的 正 负 取 值 对 其 进行 分 别 着 色 ? 
方法 


下 面 以 climate 数据 的 一 个 子 集 为 例 。 首 先 ， 创 建 一 个 对 取 值 正 负 情 况 进行 标示 的 变量 pos : 
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library (gcookbook) # 为 了 使 用 数据 
csub <- subset (climate, Source=="Berkels 
csub$pos <- csub$Anomalyl0y >= 


" & Year >= 1500) 





csub 


Source Year Anomalyly Anomaly5y Anomalyl0y Uncl0y 


Berkeley 1900 NA NA -0.171 0.108 FALSE 
Berkeley 1901 NA NA -0.162 0.109 FALSE 
Berkeley 1902 NA NA -0.177 0.108 FALSE 
Berkeley 2002 NA NA 0.856 0.028 TRUE 
Berkeley 2003 NA NA 0.869 0.028 TRUE 
Berkeley 2004 NA NA 0.884 0.029 TRUE 


上 述 过 程 准备 完毕 后 ， 将 pos 映射 给 填充 色 参 数 (fil1) 并 绘制 条 形 图 ( 见 图 3-11)。 
注意 : 这 里 条 形 图 的 参数 设 定 为 position="identity"， 可 以 避免 系统 因 对 负 值 绘制 
堆积 条 形 而 发 出 的 警告 信息 。 


gplot (csub, aes(x=Year, yrAnomalyl0y, £1li=pos))+ 





geom bar (stat="identity", position="identity") 
Ea 
se 
" me 
一人 一 一 
加 oe 必 oe 











图 3-11 ”对 正 负 取 值 的 条 形 分 别 着 色 

讨论 

上 面 的 绘图 过 程 存在 一 些 问题 。 首 先 ， 图 形 着 色 效果 可 能 跟 我 们 想 要 的 相反 ， 蓝 色 是 冷 
色 ， 通常 对 应 于 负 值 ， 红 色 是 暖色 ， 通 常 对 应 于 正 值 。 其 次 ， 图 例 显得 多 余 且 扰乱 视觉 。 


我 们 可 以 通过 scale_fill1_manual() 参数 对 图 形 颜 色 进 行 调整 ， 设 定 参数 guide=FALSE 
可 以 删除 图 例 ， 如 图 3-12 所 示 。 同 时 ， 我 们 通过 设 定 边框 颜色 (colour) 和 边框 线 宽 
度 (size) 为 图 形 填 加 一 个 细 黑 色 边框 。 其 中 ， 边 框 线 宽度 (size) 是 用 来 控制 边框 线 
宽度 的 参数 ， 单 位 是 毫米 : 


ggplot (csub, aes (x=Year, a 二 十 
geom bar(stat="identity", "; Colour="black", size=0.25) + 
scale_fill manual (values=c ("#0 DDD") ,guide=FALSE) 
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Anomaioy 


下 ma 


图 3-12 ”重新 设 定 颜色 并 移 除 了 图 例 的 条 形 图 
另 见 

更 多 关于 更 改 图 形 
更 多 关于 隐藏 图 例 的 内 容 


3.6 调整 条 形 宽度 和 条 形 间 距 
问题 

如 何 调整 条 形 图 的 条 形 宽度 和 条 形 间距 ? 

方法 

通过 设 定 geom_bar () 函数 自 
认 值 为 0.9; 更 大 的 值 将 介 


和 和 12.4 节 





的 内 容 可 参见 1 





参见 10.1 节 









条 形变 得 更 宽 或 者 更 窗 。 该 参数 的 默 


3-13) 





例如 ， 标 准 宽度 的 条 形 图 如 下 : 


主 
group group group 


3-13 ”对 应 于 不 同 条 形 宽度 的 条 形 图 
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窗 些 的 条 形 图 : 


ggplot (pg_mean, aes(x=group, y=weight)) + geom bar(stat="identity", width=0.5) 


宽 些 的 条 形 图 (条 形 图 的 最 大 宽度 为 1): 

ggplot (pg_mean, aes{(x=group, y=weight)) + geom bar(stat="identity", width=1) 

簇 状 条 形 图 默认 组 内 的 条 形 间 距 为 0。 如 果 希 望 增加 组 内 条 形 的 间距 ， 则 可 以 通过 
将 width 设 定 得 小 一 些 ， 并 令 position_dodge 的 取 值 大 于 width ( 见 图 3-14)。 


| eS Re 
i 5 
a | | 
die do EE oe ao ai 
Date Date 


图 3-14 左 图 : 条 形 更 帘 的 族 状 条 形 图 “ 右 图 : 具有 条 形 间距 的 簇 状 条 形 图 
更 窄 的 簇 状 条 形 图 可 运行 : 


es 














ggplot (cabbage_exp, 






Date, y=Weight, fill=Cultivar)) + 


geom bar (stat=" y", width=0.5, position="dodge") 
添加 条 形 组 距 可 运行 : 
ggplot (cabbage_exp, aes(x=Date, y=Weight, fill=Cultivar)) + 
geom bar (stat="identity", width=0.5, position=position dodge (0.7)) 


第 一 幅 图 的 绘图 命令 中 用 到 了 参数 position="dodge", 第 二 幅 图 的 绘图 命令 中 用 到 的 参 
数 是 position=position_dodge () 。 这 是 因为 position="dodge" 是 参数 默认 为 0.9 的 
position_dodge() 的 简写 。 当 我 们 需要 单独 指定 该 参数 的 时 候 ， 必 须 输 入 完整 的 命令 。 


讨论 
width 参数 的 默认 值 是 0.9，position_dodge 函数 中 width 参数 的 默认 值 也 是 0.9。 更 确 
切 地 说 ，position_dodge 函数 和 geom_bar() 函数 中 的 width 参数 的 取 值 是 一 样 的 。 


下 面 的 四 个 命令 是 等 价 的 : 
geom bar (position="dodge") 
geom bar (width=0.9, position=position dodge()) 
geom_ bar (position=position dodge (0.3)) 
geom bar (width=0.9, position=position dodge (width=0.3)) 

条 形 图 中 ， 条 形 中 心 对 应 的 x 轴 坐标 分 别 是 1、2、3 等 ， 但 通常 我 们 不 会 利用 上 这 些 

数值 。 当 用 户 运行 命令 geom_bar (width=0.9) 时 ， 每 组 条 形 将 在 x 轴 上 占据 0.9 个 单 

位 宽度 。 运 行 命令 position_dodge (width=0.9) 时 ，ggplot2 会 自动 调整 条 形 位 置 ， 

以 使 每 个 条 形 的 中 心 恰好 位 于 当 每 组 条 形 宽度 为 0.9， 且 组 内 条 形 紧 贴 在 一 起 时 的 位 
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置 ， 如 图 3-15 所 示 。 图 中 上 下 两 部 分 都 对 应 position_dodge (width=0.9)， 只 是 上 图 
对 应 于 0.9 的 条 形 宽度 ， 对 应 于 0.2 的 条 形 宽度 。 虽 然 上 下 两 部 分 对 应 的 条 形 宽 
度 不 同 ， 但 两 图 的 条 形 中 心 是 上 下 对 齐 的 。 


图 3-15 条 形 间距 相同 但 条 形 宽度 不 同 的 能 状 条 形 图 

如 果 你 将 整 幅 图 形 进行 伸缩 ， 条 形 图 也 会 依照 相应 的 比例 进行 伸缩 。 要 了 解 图 形 是 怎 
样 变 化 的 ， 只 需 改变 图 形 所 在 窗口 的 大 小 ， 然 后 ， 观 察 图 形 的 变化 即 可 。 更 多 关于 在 
输出 图 形 文件 时 控制 图 片 大 小 的 内 容 可 参见 第 14 章 。 


3.7 绘制 堆积 条 形 图 


问题 
如 何 绘制 堆积 条 形 图 ? 


方法 


使 用 geom_bar() 函数 ， 并 映射 一 个 变量 给 填充 色 参 数 fil1) 即 可 。 该 命令 会 将 Date 
对 应 到 x 轴 上 ， 并 以 cultivar 作为 填充 色 ， 如 图 3-16 所 示 。 


library(gcookbook) # 为 了 使 用 数据 
ggplot (cabbage exp, aes(x=Date, y=Weight, fill=Cultivar)) + 
geom_ bar (stat="ide "y 


讨论 

弄 清楚 图 形 对 应 的 数据 结构 有 助 于 理解 图 形 的 绘制 过 程 。 上 例 数据 集中 Date 变量 对 应 
于 三 个 水 平 、cultivar 变量 对 应 于 两 个 水 平 ， 两 个 变量 不 同 水 平 的 组 合 又 分 别 与 一 个 
Weight 变量 相对 应 : 
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cabbage_exp 


Cultivar Date Weight sd n se 
c39 dl6 3.18 0.9566144 10 0.30250803 
c39 d20 2.80 0.2788867 10 0.08819171 
c39 d21 2.74 0.9834181 10 0.31098410 
c52 dl6 2.26 0.4452215 10 0.14079141 
c52 d20 3.11 0.7908505 10 0.25008887 
c52 d21 1.47 0.2110819 10 0.06674995 


i Cuhtivar 
和 | 
cs2 

2- 

| 

di 20 21 
Date 
图 3-16 ”堆积 条 形 图 


默认 绘制 的 条 形 图 有 一 个 问题 ， 即 条 形 的 堆积 顺序 与 图 例 顺序 是 相反 的 。 我 们 可 以 通 
过 guides () 函数 对 图 例 顺序 进行 调整 ， 并 指定 图 例 所 对 应 的 需要 调整 的 图 形 属性 ， 本 
例 中 对 应 的 是 填充 色 (fil1)， 如 图 3-17 所 示 。 


ggplot (cabbage_exp, aes(x=Date, y=Neight, fill=Cultivar)) + 
geom bar (stat="identity") + 
guides (fill=guide_legend (reverse=TRUE)) 


6- 

a 
毛 ee 
cs2 
ce 

2- 

o- 

d16 dz0 21 
Date 


图 3-17 ”调整 图 例 顺 序 后 的 堆积 条 形 图 
如 果 你 想 调 整 条 形 的 堆肥 顺序 ， 可 以 通过 指定 图 形 映射 中 的 参数 order=desc () 来 实现 : 
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library (plyr) # 为 了 使 用 desc() 函数 
ggplot (cabbage exp, aes(x=Date, y=Weight, fill=Cultivar, order=desc{(Cultivar))) + 
geom bar (stat="iden 








6- 














图 3-18 ”翻转 了 堆 登 顺序 的 堆积 条 形 图 

当然 ， 也 可 以 通过 调整 数据 框 中 对 应 列 的 因子 顺序 来 实现 上 述 操 作 (参见 15.8 节 )， 
但 需 谨 慎 进 行 该 操作 ， 因 为 对 数据 进行 修改 可 能 导致 其 他 分 析 结 果 也 发 生 改变 。 

为 了 获得 效果 更 好 的 条 形 图 ， 我 们 保持 逆序 的 图 例 顺序 不 变 ， 同 时 ， 使 用 scale_ 
fill_brewer () 函数 得 到 一 个 新 的 调 色 板 ， 最 后 设 定 colour="black" 为 条 形 添加 一 
个 黑色 边框 线 (如 图 3-19 所 示 )。 


ggplot (cabbage exp, aes(x=Date, y=Weight, fill=Cultivar)) + 


geom bar (stat="identity", colour="black") + 
guides (fill=guide_legend(reverse=TRUE)) + 
scale_fill brewer (palette="Pastell") 





6- 
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图 3-19 ”翻转 图 例 顺序 ， 使 用 新 调 色 板 和 黑色 边框 线 的 堆积 条 形 图 


另 见 
更 多 关于 条 形 图 着 色 的 内 容 可 参见 3.4 节 。 


30 第 3 章 





将 因子 根据 另 一 个 变量 重新 排列 水 平顺 序 的 内 容 可 参见 15.9 节 。 手 动 更 改 因子 水 平顺 
序 的 内 容 ， 可 参见 15.8 节 。 


3.8 绘制 百分比 堆积 条 形 图 











问题 
如 何 绘制 可 展示 百分比 的 堆积 条 形 图 (又 叫 百分比 堆积 条 形 图 )? 
方法 


首先 ， 通 过 plyr 包 中 的 ddply () 函数 和 transform() 函数 将 每 组 条 形 对 应 的 数据 标准 
化 为 100% 格式 ， 之 后 ， 针 对 计算 得 到 的 结果 绘制 堆积 条 形 图 即 可 ， 如 图 3-20 所 示 。 
library (gcookbook) # 为 了 使 用 数据 
library (plyr) 
着 以 Date 为 切 划 变量 () 对 每 组 数据 进行 transform() 
ce <- ddply (cabbage_exp, , transform, 
percent weight = Weight / sum(Weight) * 100) 








ggplot (ce, aes(x=Date, y=percent weight, fill=Cultivar)) + 
geom_bar (stat="identity") 





Cultivar 
ca9 
cs2 














图 3-20 ”百分比 堆积 条 形 图 
讨论 
我 们 用 ddply () 函数 计算 每 组 Date 变量 对 应 的 百分比 。 本 例 中 ，ddply () 函数 根据 指 


定 的 变量 Date 对 数据 框 cabbage_exp 进行 分 组 ， 并 对 各 组 数据 执行 transform() 函 
数 (ddply() 函数 中 设 定 的 其 他 参数 也 会 传递 给 该 函数 )。 


下 面 是 cabbage_exp 数据 ， 从 中 可 以 看 出 ddply() 命令 对 其 进行 操作 的 过 程 。 
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cabbage_exp 


Cultivar Date Weight sd n se 
c39 dl6 3.18 0.9566144 10 0.30250803 


c39 d20 2.80 0.2788867 10 0.08819171 
c39 d21 2.74 0.9834181 10 0.31098410 
c52 dl16 2.26 0.4452215 10 0.14079141 
c52 d20 3.11 0.7908505 10 0.25008887 
c52 d21 1.47 0.2110819 10 0.06674995 
ce <- ddply (cabbage exp, "Date", transform, 


percent_weight = Weight / sum(Weight) * 100) 


Cultivar Date Weight sd n se percent weight 
c39 dl6 3.18 0.9566144 10 0.30250803 58.45588 
c52 dl6 2.26 0.4452215 10 0.14079141 41.54412 
c39 d20 2.80 0.2788867 10 0.08819171 47.37733 
c52 d20 3.11 0.7908505 10 0.25008887 52.62267 
c39 d21 2.74 0.9834181 10 0.31098410 65.08314 
c52 d21 1.47 0.2110819 10 0.06674995 34.91686 


计算 出 百分比 之 后 ， 就 可 以 按照 绘制 常规 堆积 条 形 图 的 方法 来 绘制 百分比 堆积 条 形 图 了 。 


跟 常规 堆积 条 形 图 一 样 ， 我 们 可 以 调整 百分比 堆积 条 形 图 的 图 例 顺序 、 更 换 调 色 板 及 
添加 边框 线 ， 如 图 3-21 所 示 。 


ggplot (ce, aes(x=Date, y=percent weight, fill=Cultivar)) + 
geom bar (stat=" ry", colour="black") + 
guides (fill=guide_legend(reverse=TRUE)) + 
scale_fill brewer (palette="Pas 











Date 











图 3-21 ” 反 转 图 例 顺 序 ， 使 用 新 调 色 板 和 黑色 边线 框 的 百分比 堆积 条 形 图 


参见 
更 多 关于 分 组 对 数据 进行 变换 的 内 容 可 参见 15.16 节 。 
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3.9 添加 数据 标签 









运行 命令 时 ， 需 要 分 别 


text () 即 可 为 条 形 图 添加 数据 标签 
〈 竖 直 1 调整 数据 标签 位 置 ) 可 


和 标签 本 身 。 通 过 设 定 v 
上 方 或 者 下 方 ， 如 









以 将 标签 位 置 移动 








EME 


Weignt 
Wergnt 





311 | 
74 
226 


| ‘nteraction(Date. Cultvar) nteraction(Date. Cultivar) 





图 3-22 左 图 : 置 于 条 形 图 顶端 下 方 的 数据 标签 ” 右 图 : 置 于 条 形 图 顶端 上 方 的 数据 标签 

当 数 据 标签 被 置 于 条 形 图 它们 可 能 会 被 遮挡 。 为 了 避免 这 个 问题 ， 可 
见 8.2 节 的 内 容 
讨论 

在 图 3-22 中 ， 数 据 相 
(vjust) 可 以 将 数据 
当 数据 标签 被 置 于 条 














的 y 轴 坐 标 位 于 每 个 条 形 的 顶端 中 心 位 置 ， 通 过 设 定 竖 直 人 
的 上 方 或 者 下 方 。 这 种 做 法 的 不 足 之 处 在 于 
能 使 数据 标签 溢出 绘图 区 域 。 为 了 修正 这 个 
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问题 ， 我 们 可 以 手动 设 定 y 轴 的 范围 ， 也 可 以 保持 竖 直 调整 不 变 ， 而 令 数据 标签 的 ? 
轴 坐 标高 于 条 形 图 顶端 。 后 一 种 办 法 的 不 足 之 处 在 于 ， 当 你 想 将 数据 标签 完全 置 于 条 
形 图 顶端 上 方 或 者 下 方 的 时 候 ， 竖 直方 向 调整 的 幅度 依赖 于 轴 的 数据 范围 ;而 更 改 
vjust 时 ， 数 据 标签 离 条 形 项 端的 距离 会 根据 条 形 图 的 高 度 自动 进行 调整 。 


音 将 yY 轴 上 限 变 大 

ggplot (cabbage exp, aes{x=interaction(Date, Cultivar), y=Weight)) + 
geom_ bar (stat="i y") + 
geom text (aes (1ab: eight"), vjust=-0.2) + 
ylim(0，max(cabbage_expSWeight)*1.05) 






## 设 定 标签 的 y 轴 位 置 使 其 咯 高 于 条 形 图 顶 墙 一 y 办 范围 会 自动 调整 

ggplot (cabbage_exp, aes(x=interaction(Date, Cultivar), y=Weight)) + 
geom bar (stat="id y") + 
geom_text (aes (y=Weight+0.1, label=Weight)) 


对 于 簇 状 条 形 图 ， 需 要 设 定 position=position_dodge () 并 给 其 一 个 参数 来 设 定 分 类 
间距 。 分 类 间距 的 默认 值 是 0.9， 因 为 簇 状 条 形 图 的 条 形 更 窄 ， 所 以 ， 需 要 使 用 字号 
(size) 来 缩小 数据 标签 的 字体 大 小 以 匹配 条 形 宽度 。 数 据 标签 的 默认 字号 是 5， 这 里 
我 们 将 字号 设 定 为 3 使 其 看 起 来 更 小 〈 见 图 3-23)。 


ggplot (cabbage_exp，aes (X=Date，y=Weight，fill=Cultivar)) + 














geom bar (stat="identity", position="dodge") + 
geom text (aes (label=Weight), vjust=i.5, colour="white", 
position=position_dodge(.9), size=3) 
3- 
2- Cuhivar 
和 ca9 
c52 
14 
0 
d16 d20 d21 


Date 











图 3-23 ”和 访 状 条 形 图 的 数据 标签 

向 堆积 条 形 图 添加 数据 标签 之 前 ， 要 先 对 每 组 条 形 对 应 的 数据 进行 累积 求 和 。 在 进行 
本 操作 之 前 ， 须 保证 数据 的 合理 排序 ， 和 否则， 可 能 计算 出 错误 的 累积 和 。 我 们 可 以 用 
plyr 包 中 的 arrange() 函数 完成 上 述 操作 ，plyr 包 是 一 个 随 ggplot2 包 加 载 的 软件 包 。 


library (plyr) 
着 根据 日 期 和 性 别 对 数据 进行 排序 


ce <- arrange (cabbage exp, Date, Cultivar) 


34 第 3 章 


确认 数据 合理 排序 之 后 ， 我 们 可 以 借助 ddply() 函数 以 Date 为 分 组 变量 对 数据 进行 分 
组 ， 并 分 别 计算 每 组 数据 对 应 的 变量 Weight 的 累积 和 。 
# 计算 果 积 和 


ce <- ddplyl(ce, 


ce 


"Date", transform, label_y=cumsum(Weight)) 


Cultivar Date Weight 





sd n se percent weight label y 








c39 d16 3.18 0.9566144 10 0.30250803 58.45588 3.18 
c52 dl6 2.26 0.4452215 10 0.14079141 41.54412 5.44 
c39 d20 2.80 0.2788867 10 0.08819171 47.37733 2.80 
c52 d20 3.11 0.7908505 10 0.25008887 52.62267 5.91 
c39 d21 2.74 0.9834181 10 0.31098410 65.08314 2.74 
c52 d21 1.47 0.2110819 10 0.06674995 34.91686 4.21 
ggplot (ce, aes(x=Date, aie fill=Cultivar)) + 
geom_bar (stat=" 
geom_text (aes (y=label_y, label=Weight), vjust=].5, colour="white") 
结果 如 图 3-24 所 示 。 
Cumvar 
cm 
= 








ie 


0 a21 
Date 








图 3-24 ”堆积 条 形 图 的 数据 标签 
使 用 数据 标签 时 ， 对 堆 全 顺序 的 调整 最 好 是 通过 在 计算 累积 和 之 前 修改 因子 的 水 平顺 
序 (参见 15.8 节 ) 来 完成 。 另 一 种 修改 堆 公 顺序 的 方法 是 在 标 度 中 指定 breaks 参数 ， 
但 在 这 里 此 方法 并 不 合适 ， 因 为 累计 求 和 的 顺序 与 堆 登 的 顺序 并 不 一 致 。 
如 果 想 把 数据 标签 置 于 条 形 中 部 〈 见 图 3-25)， 须 对 累计 求 和 的 结果 加 以 调整 ， 并 同 
时 略 去 geom_bar() 函数 中 对 偏 移 量 (offset) 的 设置 : 


ce <- arrange(cabbage_exp，Date，Cultivar) 


音 计 算 y 轴 的 位 置 ， 将 数 
ce <- ddply(ce, "I 






ggplot (ce, aes(x=Date, 


签 置 于 条 形 中 部 


, transform, label y=cumsum(Weight)- 


y=Weight, fill=Cultivar))+ 


*Weight) 


条 形 图 
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geom bar (stat="identity")+ 
geom text (aes (y=label_y, label=Weight), colour="W 


Cumivar 
ce 
cs2 

0 2 
Date 


3-25 ”和 置 于 堆积 条 形 图 条 形 中 部 的 数据 标签 


为 了 得 到 效果 更 好 的 条 形 图 ( 见 图 3-26)， 我 们 修改 一 下 图 例 顺序 和 颜色 ， 将 数据 标 
签 置 于 条 形 中 间 ， 同 时 通过 字号 参数 (size) 缩小 标签 字号 ， 并 调用 paste 函数 在 标 
签 后 面 添加 “kg”， 为 了 使 得 标签 保留 两 位 小 数 我 们 还 需 调 用 format 函数 : 


=Weight, fill=Cultivar)) + 
ity", colour="black") + 
bel_y, label=paste(format (Weight, nsmall=2), "kg")), 











de 











ggplot (ce，aes (x=Date 
geom_ bar (stat: 
geom text (aes 
size=)+ 
guides (fill=guide_legend(reverse=TRUE)) + 
scale fill brewer(palette="pastell") 














di6 d20 ad21 











Date 
3-26 ” 自 定义 的 带 数 据 标签 的 堆积 条 形 图 
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另 见 
更 多 关于 控制 文本 格式 的 内 容 可 参见 9.2 节 。 
更 多 关于 分 组 转换 数据 的 内 容 可 参见 15.6 节 。 


3.10 ”绘制 Cleveland 点 图 


问题 
如 何 绘制 Cleveland 点 图 ? 


方法 


有 时 人 们 会 用 Cleverland 点 图 来 替代 条 形 图 以 减少 图 形 造成 的 视觉 混乱 并 使 图 形 更 具 可 


读 性 。 


最 简便 的 绘制 Cleverland 点 图 的 方法 是 直接 运行 geom_point () 命令 ( 见 图 3-27)。 


library (gcookbook) # 为 了 使 用 数据 


tophit <- tophitters2001[1:25，] # 取出 tophitters 数据 集中 的 前 25 个 数据 


ggplot (tophit, aes(x=avg, y=name)) + geom point() 














图 3-27 简单 点 图 
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讨论 
tophitters2001 数据 集 包含 很 多 列 ， 这 里 我 们 只 看 其 中 三 列 ; 
tophit[, c("name", "lg", "avg") 
name 1g avg 
Larry Walker NL 0.3501 


Ichiro Suzuki AL 0.3497 
Jason Giambi AL 0.3423 


”Jeff Conine ML 0.3111 
Derek Jeter AL 0.3111 


图 3-27 中 的 名 字 是 按 字 母 先后 顺序 排列 的 ， 这 种 排列 方式 用 处 不 大 。 通 常 ， 点 图 中 会 
根据 x 轴 对 应 的 连续 变量 的 大 小 取 值 对 数据 进行 排序 。 

尽管 tophit 的 行 顺序 恰好 与 avg 的 大 小 顺序 一 致 ， 但 这 并 不 意味 着 在 图 中 也 是 这 样 排 
序 的 。 在 点 图 的 默认 设置 下 ， 坐 标 轴 上 的 变量 通常 会 根据 变量 类 型 自动 选取 合适 的 排 
序 方式 。 本 例 中 变量 name 属于 字符 串 类 型 ， 因 此 ， 点 图 根据 字母 先后 顺序 对 其 进行 
了 排序 。 当 变量 是 因子 型 变量 时 ， 点 图 会 根据 定义 好 的 因子 水 平顺 序 对 其 进行 排序 。 
现在 ， 我 们 想 根据 变量 avg 对 变量 name 进行 排序 。 
我 们 可 以 借助 reorder (name, avg) 函数 实现 这 一 过 程 。 该 命令 会 先 将 name 转化 为 因 
子 ， 然 后 ， 根 据 avg 对 其 进行 排序 。 为 使 图 形 效果 更 好 ， 我 们 借助 图 形 主题 系统 
CTheming System) 删除 垂直 网 格 线 ， 并 将 水 平 网 格 线 的 线 型 修改 为 虚线 〈 见 图 3-28)。 








Lary Walker | . 

Ichiro Suzuki - . 

Jason Giambi -| . 
enn] . 
>» 


: 
ul 





| 
031 032 033 034 035 
avg 


图 3-28 ”点 图 ， 根据 平均 击 球 距离 对 姓名 进行 了 排序 
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ggplot (tophit, aes(x=avg, y=reorder (name,avg))) + 
geom point (size=3) + 者 使 用 更 大 的 点 
theme_bw() + 
theme (panel.grid.major.x = element blank(), 

panel.grid.minor. element blank(), 
panel.grid.major.y = element line (colour=" 


我 们 也 可 以 将 点 图 的 x 轴 和 y 轴 互 换 ， 互 换 后 ，x 轴 对 应 于 姓名 ，y 轴 将 对 应 于 数值 ， 
如 图 3-29 所 示 。 我 们 也 可 以 将 数据 标签 旋转 60”。 


ggplot (tophit, aes(x=reorder (name, avg), y=avg)) + 
geom point (size=3) + # 使 用 更 大 的 点 
theme bw() + 
theme (axis.text.x = element text (angle=60,hjust=1), 
panel.grid.major.y = element blank()， 
panel .grid.minor.y = element blank(), 
panel.grid.major.x = element line (colour="grey60", linetype="dashed")) 








", linetype="dashed") ) 











0.35 PE] 
. 
0.34 
eo. 
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| eo. 
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图 3-29 x 轴 对 应 于 名 字 , ” 轴 对 应 于 变量 值 的 点 图 

有 时 候 ， 根 据 其 他 变量 对 样本 进行 分 组 很 有 用 。 这 里 我 们 根据 因子 19 对 样本 进行 分 
组 ， 因 子 19 对 应 有 NL 和 AL 两 个 水 平 ， 分 别 表 示 国 家 队 (National League) 和 美国 队 
(American league)。 我 们 依次 根据 1g 和 avg 对 变量 进行 排序 。 遗 憾 的 是 ，reorder () 
函数 只 能 根据 一 个 变量 对 因子 水 平 进行 排序 ， 所 以 我 们 只 能 手动 实现 上 述 过 程 。 


# 提取 出 name 变量 ， 依 次 根据 变量 19 和 avg 对 其 进 J 
nameorder <- tophitSname[order (tophit$1g, tophit$avg)] 





间 将 name 转化 为 因 于 ， 因 子 水 平 与 nameorder 一 至 
tophit$name <- factor(tophit$name, levels=nameorder) 


绘制 点 图 时 《〈 见 图 3-30)， 我 们 把 19 变量 映射 到 点 的 颜色 属性 上 。 借 助 geom_seg- 


条 形 图 39 


ment () 函数 用 “以 数据 点 为 端点 的 线段 ”代替 贯通 全 图 的 网 格 线 。 注 意 geom_seg- 
ment () 函数 需要 设 定 x、y、xend 和 yend 四 个 参数 : 


ggplot (tophit, aes(x=avg, y=name)) + 
geom_segment (aes (yend=name), xend=), colour: 
geom point (size=3, aes(colour=1g)) + 
scale_colour_brewer (palette="Setl", limits=c( 
theme bw() + 
theme (panel .grid.major.y = element_blank(), 打出 除 水 平 网 格 线 

legend.position=c(1, 0.55), 才 将 图 例 放置 在 绘图 区 域 中 


legend. justification=c (1, 0.5)) 








RL")) + 




















a 
0.31 032 033 034 0.35 
avg 











图 3-30 ”以 队 为 分 组 变量 的 火柴 杆 图 


另外 一 种 分 组 展示 数据 的 方式 是 分 面 ， 如 图 3-31 所 示 。 分 面条 形 图 中 的 条 形 的 堆 登 顺 
序 与 图 3-30 中 的 堆肥 顺序 有 所 不 同 ， 要 修改 分 面 显示 的 堆肥 顺序 只 有 通过 调整 19 变 
量 的 因子 水 平 来 实现 。 


ggplot (tophit, aes(x=avg, y=name)) + 
geom_segment (aes (yend=name), xend=), colour="grey50") + 
geom point (size=}, aes(colour=1g)) + 
scale_colour_ brewer (palette="S 
theme bw() + 











=C ("NL", "AL®), guide=FALSE) + 
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theme (panel .grid.major.y = element blank()) + 
facet_grid(1g ~ ., scales= , space=" 








上 
| 


上 
| 




















图 3-31 ”以 队 为 分 组 变量 进行 分 面 绘图 


另 见 

更 多 关于 调整 因子 水 平顺 序 的 内 容 可 参见 15.8 节 。 关 于 基于 其 他 变量 调整 
序 的 细节 内 容 可 参见 15.9 节 。 

更 多 关于 调整 图 例 位 置 的 内 容 可 参见 102 节 。 更 多 关于 隐藏 网 格 线 的 内 容 ， 可 参见 96 节 。 





子 水 平顺 
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”折线 图 





折线 图 通常 用 来 对 两 个 连续 变量 之 间 的 相互 依存 关系 进行 可 视 化 ， 其 中 ，x 轴 对 应 于 
自 变量 ，y 轴 对 应 于 因 变 量 。 一 般 来 说 ， 折 线 图 的 x 轴 对 应 的 是 时 间 变 量 ， 但 也 可 以 
用 来 表示 诸如 实验 对 象 的 药剂 量 等 连续 型 变量 。 

当然 ， 跟 条 形 图 类 似 ， 折 线 图 的 用 法 也 有 例外 。 有 了 时候， 折线 图 的 x 轴 也 可 以 与 离散 
型 变量 相对 应 ， 但 此 时 只 适用 于 变量 为 有 序 离散 型 变量 比如“ 小"、“ 中 ”"、“ 大 ”) 
的 情形 ， 而 不 适用 于 无 序 变量 (比如 “ 牛 ”"、“ 鹅 ”"、“ 猪 ”等 )。 本 章 中 的 大 部 分 案例 
用 到 的 都 是 连续 型 变量 x， 在 其 中 一 个 案例 中 ， 我 们 会 将 连续 型 变量 转化 为 因子 型 变 
量 ， 因 此 ， 它 也 可 以 看 作 是 一 个 针对 离散 型 变量 绘制 折线 图 的 例子 。 


4.1 绘制 简单 折线 图 


问题 

如 何 绘制 简单 折线 图 ? 

方法 

运行 ggplot () 和 geom_line() 函数 ， 并 分 别 指定 一 个 变量 映射 给 x 和 y ( 见 图 4-1)。 
ggplot (BOD, aes(x=Time, y=demand)) + geom line() 

讨论 

对 于 这 个 简单 的 数据 框 ，x 对 应 的 变量 Time 和 y 对 应 的 变量 demand 分 别 对 应 于 数据 

框 的 两 列 数据 : 


BOD 
Time demand 
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mw 
这 

















图 4-1 简单 折线 图 

折线 图 的 x 轴 既 可 以 对 应 于 离散 型 (分 类 ) 变量 ， 也 可 以 对 应 于 连续 型 (数值 型 ) 变量 。 
本 例 中 Time 变量 为 连续 型 变量 ， 但 我 们 可 以 借助 factor () 函数 将 其 转化 为 因子 型 变 
量 ， 然 后 ， 将 其 当 作 分 类 变量 来 处 理 〈 见 图 4-2)。 当 x 对 应 于 因子 型 变量 时 ， 必 须 使 
用 命令 aes (group=1) 以 确保 ggplot () 知道 这 些 数据 点 属于 同一 个 分 组 ， 从 而 应 该 用 
一 条 折线 连 在 一 起 (关于 为 什么 因子 型 变量 必须 设 定 group 的 内 容 可 以 参见 4.3 节 )。 


BOD1 <- BOD # 将 数据 复制 一 份 
BOD1S$Time <- factor(BOD1STime) 
ggplot (BOD1，aes (xy=Time，y=demand，group=1)) + geom_line() 











图 4-2 x 轴 对 应 于 分 类 变量 的 简单 折线 图 ( 注意 x 轴 上 没有 对 应 于 水 平 6 的 取 值 ) 

数据 集 BoD 中 没有 对 应 于 Time=6 的 数据 点 ， 因 此 当 Time 被 转化 为 因子 型 变量 时 ， 它 
并 没有 6 这 个 水 平 。 因 子 型 变量 对 应 于 分 类 值 ， 这 里 的 6 只 是 其 中 一 个 可 能 的 取 值 。 
因为 数据 集中 恰好 没有 对 应 于 该 水 平 的 数据 点 ， 所 以 ，x 轴 上 没有 绘制 相应 的 取 值 。 


默认 情况 下 ，ggplot2 绘制 的 折线 图 的 y 轴 范围 刚好 能 容纳 数据 集中 的 y 值 。 对 于 某 些 
数据 而 言 ， 我 们 将 ? 轴 的 起 点 设 定 为 0 点 会 更 合适 。 你 可 以 运行 ylim() 设 定 y 轴 范围 
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或 者 运行 含 一 个 参数 的 expand_limit () 扩展 y 轴 的 范围 。 下 面 的 命令 将 y 轴 的 范围 
设 定 为 0 到 BoD 中 demand 变量 的 最 大 值 。 


间 运行 下 面 的 命令 得 到 的 结果 是 相同 约 
ggplot (BOD, aes(x=Time, y=demand)) + geom line() + ylim(0, max(BOD$demand)) 
ggplot (BOD, aes(x=Time, y=demand)) + geom line() + expand limits(y=0)) 

















图 4-3 手动 设 定 y 轴 范围 的 折线 图 
另 见 
更 多 关于 控制 坐标 轴 范 围 的 内 容 参见 8.2 节 。 


4.2 向 折线 图 添加 数据 标记 
问题 
如 何 向 折线 图 添加 数据 标记 ? 


方法 
在 代码 中 加 上 geom_point () 〈 见 图 4-4): 


ggplot (BOD, aes(x=Time, y=demand)) + geom_line() + geom_point () 














图 4-4 ”添加 了 数据 标记 的 折线 图 
讨论 
有 时 候 ， 在 折线 图 上 添加 数据 标记 很 有 用 处 。 当 数据 点 的 密度 较 低 或 者 数据 采集 频率 
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不 规则 时 尤其 有 用 。 比 如 ，B0D 数据 集中 没有 与 Time=6 相对 应 的 输入 ， 然 而 ， 这 在 单 
独 的 一 张 折线 图 看 起 来 并 不 明显 (可 比较 一 下 图 4-3 和 图 4-4)。 


worldpop 数据 集 对 应 的 采集 时 间 间 隔 不 是 常数 。 时 间距 今 较 和 久远 的 数据 采集 频率 比 新 
近 不 久 的 数据 采集 频率 低 。 折 线 图 中 的 数据 标记 表明 了 数据 的 采集 时 间 〈 见 图 4-5): 
library (gcookbook) # 为 了 使 用 数据 
ggplot (worldpop, aes(x=Year, y=Population)) + geom line() + geom point() 


# 当 y 轴 取 对 数 时 也 一 样 
ggplot (worldpop, aes(x=Year, y=Population)) + geom line() + geom point() + 
scale_y_log10() 

















图 4-5 ”上 图 : 数据 标记 表明 了 数据 的 采集 时 间 ”下 图 : 对 » 轴 取 对 数 

从 对 y 轴 取 对 数 的 折线 图 上 可 以 看 出 ， 在 过 去 数 千年 中 人 口 增长 率 有 所 增加 。 公 元 元 
年 之 前 的 人 口 增长 率 接近 常数 ， 约 每 5000 年 增加 10 倍 。 从 图 中 也 可 以 看 出 ， 近 年 来 
的 人 口 普 查 频率 比 以 往 更 为 频繁 ， 数 据 也 更 为 准确 。 


另 见 

更 多 关于 修改 数据 标记 样式 的 内 容 可 参见 4.5 节 。 
4.3 绘制 多 重 折线 图 

问题 

如 何 绘制 多 重 折线 图 ? 
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方法 
在 分 别 设 定 一 个 映射 给 x 和 Y 的 基础 上 ， 再 将 另外 一 个 《离散 型 ) 变量 映射 给 颜色 
(colour) 或 者 线 型 (Linetype) 即 可 ， 如 图 4-6 所 示 。 


站 载 入 plyr 包 ， 便 于 我 们 使 用 ddp1y() 函数 创建 样本 数据 集 
library (plyr) 

地 对 ToothGrowth 数据 集 进行 
tg <- ddply(ToothGrowth，c 





"dose"), summarise, length=mean (len) ) 





# 将 supp 映射 给 其 色 (colour) 
ggplot (tg, aes (x=dose, y=length, colour=supp)) + geom line() 


# 将 supp 隐 射 给 线 型 (linerype) 
ggplot (tg, aes(x=dose, y=length, linetype=supp)) + geom_line() 





= 
2 ap 2- spp 
§ To Eo 
yp = vw 
ff 关 
最 | 
py 
同和 略 ”入 。 芭 
dose dose 











图 4-6 。 左 图 : 将 变量 映射 给 颜色 ( colour ) 右 图 : 将 变量 映射 给 线 型 ( linetype ) 
讨论 
tg 数据 集 共有 三 列 ， 其 中 一 列 是 我 们 映射 给 颜色 (colour) 和 线 型 (linetype) 的 supp 变量 : 


tg 
supp dose length 
O07 0.5 13.23 
07 1.0 22.70 
0 2.0 26.06 
VC 0.5 7.98 
Ve 1.0 16.77 
VC 2.0 26.14 
str(tg) 


'data.frame': 6 obs. of 3 variables: 
$ supp : Factor Ww/ 2 levels "OJ","vC": 111222 
$dose : num 0.5120.512 
$ length: num 13.23 22.7 26.06 7.98 16.77 ... 
过 如 果 X 变 量 是 因子 ， 你 必须 同时 告诉 ggplot () 用 来 分 组 的 变量 ， 正 如 接 


下 来 要 介绍 的 那样 。 
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折线 图 的 x 轴 既 可 以 对 应 于 连续 型 变量 也 可 以 对 应 于 离散 型 变量 。 有 时 候 ， 映 射 给 x 
的 变量 虽然 被 存储 为 数值 型 变量 ， 但 被 看 作 分 类 变量 来 处 理 。 本 例 中 ，dose 变量 有 三 
个 取 值 : 0.5、1.0 和 2。 或许 你 更 想 将 其 当 作 分 类 变量 而 不 是 连续 型 变量 来 处 理 ， 那 么 
运行 factor () 函数 将 其 转化 为 因子 (如 图 4-7 所 示 )。 


ggplot (tg, aes(x=factor (dose), y=length, colour=supp, group=supp)) + geom line() 














图 4-7 ”将 连续 型 变量 转化 为 因子 型 变量 后 绘制 的 折线 图 


注意 ， 不 可 缺少 group=supp 语句 ， 否 则 ，ggplot () 会 不 知 如 何 将 数据 组 合 在 一 起 
绘制 折线 图 ， 从 而 会 报错 : 


ggplot (tg, aes(x=factor (dose), y=length, colour=supp)) + geom_line() 


geom path: Each group consists of only one observation. Do you need to adjust 
the group aesthetic? 


当 分 组 不 正确 时 会 遇见 的 另 一 种 问题 是 ， 折 线 图 会 变 成 锯齿 状 ， 如 图 4-8 所 示 。 


ggplot (tg, aes(x=dose, y=length)) + geom_line() 

















图 4-8 ”不 正确 分 组 导致 的 锯齿 状 折线 图 
导致 这 种 情况 的 原因 在 于 x 在 每 个 位 置 都 对 应 于 多 个 点 ，ggplot () 误 以 为 这 些 点 属于 
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同一 组 数据 而 将 其 用 一 根 折线 相连 ， 结 果 形 成 了 锯齿 状 折线 图 。 如 果 将 任意 离散 型 变 
量 映射 给 colour 或 者 linetype，9gplot () 会 以 其 为 分 组 变量 对 数据 进行 分 组 。 如 果 
你 想 借助 其 他 变量 对 数据 进行 分 组 〈 未 映射 给 图 形 属性 ) 则 需 使 用 group。 


区 有 疑问 时 ， 或 者 如 果 你 的 折线 图 看 起 来 不 太 合理 ， 可 以 试 着 用 group 明确 
。 指定 分 组 变量 。 这 种 问题 十 分 常见 ， 因 为 ggplot () 不 知道 如 何 对 折线 图 
3 数据 进行 分 组 。 

如 果 折线 图 上 有 数据 标记 ， 你 也 可 以 将 分 组 变量 映射 给 数据 标记 的 属性 ， 诸 如 shape 
和 fill 等 ( 见 图 4-9)。 


ggplot (tg, aes (x=dose, y=length, shape=supp)) + geom line() + 








geom point (size=) 闻 更 大 的 点 
ggplot (tg, aes(x=dose, y=length, fill=supp)) + geom line() + 
geom point (size= , shape= 1) 考 使 用 有 填充 色 的 点 
站 
20 20 i 
和 本 OU 呈 ©o 
全 全 VC 二 @vc 
10 1 
05 110 1 20 0. to 1 2 
dose dose 











图 4-9 。 左 图 : 对 应 于 不 同 点 形 的 折线 图 右 图 : 对 应 于 不 同 颜色 的 折线 图 

有 时 ， 数 据 标记 会 相互 重 乔 。 我 们 需要 令 其 彼此 错开 。 这 意味 着 要 将 它们 的 位 置 左 移 
或 者 右 移 〈 见 图 4-10)。 同 时 ， 需 要 相应 地 左 移 或 者 右 移 连接 线 以 避免 点 线 偏离 。 在 
这 一 过 程 中 ， 必 须 指定 数据 标记 的 移动 距离 。 


ggplot (tg, aes(x=dose, y=length, shape=supp)) + 
geom_line (position=position dodge(..)) + 将 连接 级 左右 移动 0.2 
geom_point (position=position dodge('. )，size=)  “# 将 点 的 位 置 左右 移动 0.2 
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4.4 修改 线条 样式 


问题 

如 何 修改 折线 图 的 线条 样式 ? 

方法 

通过 设置 线 型 (linetype) 、 线 宽 (size) 和 颜色 (colour) 参数 可 以 分 别 修改 折线 
的 线 型 、 线 宽 和 颜色 。 

通过 将 这 些 参数 的 值 传递 给 geom_line () 函数 可 以 设置 折线 图 的 对 应 属性 ， 如 图 4-11 所 示 。 


ggplot (BOD，aes (x=Time，y=demand) )+ 





geom_line (linetype="dashed"，size=]，colour="bluem) 
20.0- “ 
、 一 
17.5- :人 ; 
/7 "1 
员 iso- / 
§12s- ‘ 
bs / 
’ 
100 一 
一 
2 4 6 
Time 











图 4-11 自 定义 线 型 、 宽 度 和 颜色 的 折线 图 
对 于 多 重 折线 图 而 言 ， 设 定 图 形 属性 会 对 图 上 的 所 有 折线 产生 影响 。 而 将 变量 映射 
给 图 形 属性 则 会 使 图 上 的 折线 具有 不 同 的 外 观 ， 参 见 4.3 节 。 折 线 图 的 默认 颜色 并 不 
是 很 吸引 眼球 ， 所 以 ， 我 们 可 能 希望 使 用 其 他 调 色 板 为 图 形 着 色 ， 可 以 调用 scale_ 
colour_brewer () 和 scale_colour_manual () 函数 完成 上 述 操 作 ， 如 图 4-12 所 示 。 

直 加 载 plyr 包 ， 便 于 调用 ddply() 函数 创建 例子 所 才 的 数据 集 

library (plyr) 


对 ToothGrowth 数据 集 进 行 元 总 
tg <- ddply(ToothGrowth, c("supp", "dose"), summarise, length=mean (len)) 


ggplot (tg, aes(x=dose, y=length, colour=supp)) + 
geom line() + 
scale_colour_ brewer (palette="Seri") 


讨论 
在 aes () 函数 外 部 设 定 颜色 (colour) 会 将 所 有 折线 设 定 为 同样 的 颜色 。 其 他 图 形 属 
性 诸如 线 宽 (size)、 线 型 (linetype) 和 点 形 (shape) 与 此 类 似 ， 如 图 4-13 所 示 。 
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操作 过 程 中 可 能 需要 指定 分 组 变量 。 
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4-12 ”调用 RColorBrewer 中 的 调 色 板 


## 如 果 两 条 折线 的 图 形 属性 相同 ， 需 要 指定 一 个 分 组 变量 
ggplot (tg, aes(x=dose, y=length, group=supp)) + 
geom_line (colour="d ", size=].5) 


# 因为 变量 supp 被 映射 色 (colour) 易 性 ， 所 以 ， 它 
ggplot (tg, aes(x=dose, y=length, colour=supp)) + 
geom_line (linetype="dashed") + 
geom_point (shape=22, size=3, fill="white") 
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图 4-13 左 图 : 单一 颜色 和 宽度 的 折线 图 右 图 : 将 变量 supp 映射 给 colour 并 添加 数据 标记 
的 折线 图 


另 见 

更 多 关于 使 用 颜色 的 内 容 可 参见 第 12 章 。 
4.5 修改 数据 标记 样式 
问题 

如 何 修改 数据 标记 的 样式 ? 
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方法 


在 函数 aes() 外 部 设 定 函数 geom_point () 的 大 小 〈size)、 颜 色 〈colour) 和 填充 色 
(fi11) 即 可 ， 如 图 4-14 所 示 。 


ggplot (BOD, aes(x=Time, y=demand)) + 
geom line() + 
geom point (size=4, shape=22, colour="darkred", fill="pink") 














200- 
175- 
i 150- 
125- 
100- 

2 4 6 
Time 
图 4-14 。 自 定义 数据 标记 大 小 、 形 状 、 颜 色 和 填充 色 的 折线 图 


讨论 

数据 标记 默认 的 形状 (shape) 是 实 线 圆 圈 ， 默 认 的 大 小 (si ze) 是 2， 默 认 的 颜色 
《colour) 是 黑色 (black)。 填 充 色 〈fil1) 属性 只 适用 于 某 些 (标号 21-25) 具有 独 
立 边框 线 和 填充 颜色 的 点 形 (参见 5.3 节 中 的 点 形 列表 )。fil1l 一 般 取 空 值 或 者 NA。 
将 填充 色 设 定 为 白色 可 以 得 到 一 个 空心 圆 ， 如 图 4-15 所 示 。 


ggplot (BOD，aes (x=Time，y=demand)) + 
geom line() + 
geom point (size=i, shape=21, fill="white") 


,i 
iso 
8 
















图 4-15 ”填充 色 为 白色 的 数据 标记 
如 果 要 将 数据 标记 和 折线 设 定 为 不 同 的 颜色 ， 我 们 必须 在 折线 绘制 完毕 后 再 行 设 定数 
据 标记 的 颜色 ， 此 时 ， 数 据 标 记 被 绘制 在 更 上 面 的 图 层 ， 从 而 ， 避 免 被 折线 遮盖 。 
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从 43 节 可 知 ， 通 过 在 aes () 函数 内 部 将 分 组 变量 映射 给 数据 标记 的 图 形 属性 可 以 将 多 条 折线 
设 定 为 不 同 的 颜色 。 数 据 标记 的 默认 颜色 并 不 吸引 眼球 ， 因 而 ， 你 可 能 想 要 调用 别 的 调 色 板 , 
scale colour brewer () 函数 和 scale_colour_manual () 函数 可 以 完成 上 述 操作 。 在 aes() 函 
数 外 部 设 定 shape 和 size 可 以 将 数据 标记 设 定 为 统一 的 形状 和 颜色 ， 如 图 4.16 所 示 。 


## 载 入 plyr 包 ， 以 使 用 ddply() 西数 创建 例子 所 需 数据 集 
library (plyr) 

# 对 ToothGrowth 数据 集 进 行 汇总 
tg <- ddply(ToothGrowth, c(" 


# 保存 错开 (dodge) 设置 ， 接 下 来 会 多 次 用 到 
pd <- Position_dodge(' 2) 


+ "dose"), summarise, length=mean(len)) 





ggplot (tg, aes(x=dose, y=length, fill=supp)) + 
geom line(position=pd) + 
geom point (shape=;|, size=3, position=pd) + 
scale_fill_manual (values=c ("black", "white")) 
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图 4-16 ”将 填充 色 手 动 设 定 为 黑白 两 色 ， 并 轻微 调整 数据 标记 的 位 置 

另 见 

更 多 关于 使 用 点 形 的 内 容 可 以 参见 53 节 ， 更 多 关于 使 用 颜色 的 内 容 可 参见 本 书 第 12 章 。 
4.6 ”绘制 面积 图 

问题 

如 何 绘制 面积 图 ? 


方法 


运行 geom_area() 函数 即 可 绘制 面积 图 ， 如 图 4-17 所 示 。 


# 将 sunspot .year 数据 入 转化 为 数据 框 。 便 于 本 例 使 用 
sunspotyear <- data.frame( 
Year = as.numeric(time(sunspot.year)), 
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Sunspots = as.numeric(sunspot.year 
) 


ggplot (sunspotyear, aes(x=Year, y=Sunspots)) + geom areal 








Year 








讨论 


默认 情况 下 ， 面 积 图 的 填充 色 为 黑 灰色 且 没 有 边框 线 ， 通 过 设 定 填充 色 (fi11) 可 
以 修改 面积 图 的 填充 色 。 接 下 来 的 例子 中 ， 我 们 将 填充 色 设 定 为 蔓 色 ， 并 通过 设 定 
alpha=0.2 将 面积 图 的 透明 度 设 定 为 80%， 此 时 ， 我 们 可 以 看 到 面积 图 的 网 格 线 ， 如 
图 4-18 所 示 。 通 过 设置 颜色 (colour) 可 以 为 面积 图 添加 边框 线 ; 


ggplot (sunspotyear, aes(x=Year, y=Sunspots)) + 
geom area (colour= , fill=" ，alpha= :) 














图 4-18 ” 带 半 透明 阴影 区 域 和 边框 线 的 面积 图 

给 整个 面积 图 添加 边框 线 之 后 的 效果 可 能 并 不 十 分 令 人 满意 ， 因 为 此 时 系统 会 在 面积 
图 的 起 点 和 终点 位 置 分 别 绘制 一 套 垂直 线 ， 且 在 底部 绘制 了 一 条 横 线 。 为 了 修正 上 述 
清 况 ， 可 以 先 绘制 不 带 边框 线 的 面积 图 (不 设 定 colouz)， 然 后 ， 添 加 新 图 层 ， 并 用 
geom_line() 函数 绘制 轨迹 线 ， 如 图 4-19 所 示 。 


aes (x=Year, y=Sunspots)) + 
,alpha=, ) + 











ggplot (sunspoty: 
geom are 
geom_line() 














17100 1800 1900 ‘000 
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图 4-19 ”调用 geom_line () 函数 绘制 覆盖 项 部 的 面积 图 
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另 见 
更 多 关于 使 用 颜色 的 内 容 可 以 参见 本 书 第 12 章 。 


4.7 ”绘制 堆积 面积 


问题 

如 何 绘制 堆积 面积 图 ? 

方法 

运行 geom_area () 函数 ， 并 映射 一 个 因子 型 变量 给 填充 色 (fi11) 即 可 ， 如 图 4-20 所 示 。 


library(gcookbook) # 为 了 使 用 数据 


ggplot (uspopage, aes(x=Year, y=Thousands, fill=AgeGroup)) + geom area() 
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图 4-20 ”堆积 面积 图 
讨论 

堆积 面积 图 对 应 的 基础 数据 通常 为 宽 格 式 (wide format) ， 但 ggplot2 要 求 数据 必须 是 
长 格式 (long format) ， 在 两 种 格式 之 间 进 行 转换 的 内 容 可 参见 15.19 节 。 

下 面 以 uspopage 数据 集 为 例 : 


uspopage 


Year AgeGroup Thousands 


1900 <5 9181 
1900 5-14 16966 
1900 15-24 14951 
1900 25-34 12161 
1900 35-44 9273 
1900 45-54 6437 
1900 55-64 4026 
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1900 >64 3099 
1901 <5 9336 
1901 5-14 17158 


默认 情况 下 图 例 的 堆积 顺序 与 面积 图 的 堆积 顺序 是 相反 的 。 通 过 设 定 标 度 中 的 切 分 
(breaks) 参数 可 以 翻转 堆积 顺序 。 图 4-21 中 的 堆积 面积 图 对 图 例 的 堆积 顺序 进行 了 
反 转 ， 将 调 色 板 设 定 为 蓝 色 渐变 色 ， 并 在 各 个 区 域 之 间 添 加 细 线 (size=.2)。 同 时 我 
们 将 填充 区 域 设 定 为 半 透 明 (alpha=.4)， 这 样 可 以 透 过 填充 区 域 看 见 网 格 线 。 


ggplot (uspopage, aes(x=Year, y=Thousands, fill=AgeGroup)) + 
geom_area (colour="black", size=.2, alpha=.4) + 
scale fill brewer (palette="Blues", breaks=rev(levels (uspopage$AgeGroup))) 
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图 4-21 ” 反 转 图 例 堆积 顺序 、 带 面积 分 割 线 并 调用 其 他 调 色 板 的 堆积 面积 图 
在 aes() 函数 内 部 设 定 order=desc (AgeGroup) 可 以 对 堆积 面积 图 的 堆积 顺序 进行 反 
转 ， 如 图 4-22 所 示 。 
library(plyr) # 为 
ggplot (uspopage, aes(x=Year, y-Thousands, fill-AgeGroup, order=desc(AgeGroup))) + 


geom_area (colour= "size=.2, alpha=.4) + 
scale_fill_brewer (palette="Blues") 














用 desc() 函数 
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图 4-22 ” 反 转 堆积 顺序 的 堆积 面积 图 
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因为 堆积 面积 图 中 的 各 个 部 分 是 由 多 边 形 构成 的 ， 因 此 其 具有 左 、 右 边框 线 。 这 样 的 绘图 效 
果 差 强人 意 且 可 能 产生 误导 效果 。 为 了 对 此 进行 修正 〔 见 图 423)， 我 们 可 以 先 绘制 一 个 不 带 
边框 线 的 堆积 面积 图 (将 colour 设 定 为 默认 的 a 值 )， 然 后 ， 在 其 顶部 添加 geom_line(): 


ggplot (uspopage, aes(x=Year, y=Thousands, fill=AgeGroup, order=desc(AgeGroup))) + 
geom area(colour=NA, alpha=,4) + 
scale fill brewer (palette= a 
geom line(position="sta 
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图 4-23 ”没有 左 、 右 边框 线 的 堆积 面积 图 

另 见 

更 多 关于 宽 格式 与 长 格式 相互 转换 的 内 容 ， 可 参见 15.3 节 。 
更 多 关于 重 排 因子 水 平顺 序 的 内 容 ， 可 参见 15.8 节 。 

更 多 关于 选择 图 形 颜 色 的 内 容 ， 可 参见 本 书 第 12 章 。 


4.8 绘制 百分比 堆积 面积 图 


问题 
如 何 绘制 一 个 所 有 条 形 高 度 为 同一 常数 的 堆积 条 形 图 ? 


方法 


首先 ， 计 算 各 组 对 应 的 百分比 。 本 例 中 ， 我 们 调用 ddp1ly () 函数 按 变 量 Year 对 
uspopage 进行 分 组 ， 然 后 计算 一 个 新 的 列 ， 命 名 为 Percent。 该 列 每 一 行 的 值 等 于 对 
应 的 Thousands 值 除 以 变量 Year 对 应 的 各 个 组 内 的 Thousands 之 和 再 乘 以 100%。 


library(gcookbook)  # 为 了 使 用 数据 
library (plyr) # 为 了 使 用 ddply() 函数 





音 将 Thousands 转化 为 Percent 


56 第 4 章 





uspopage_prop <- ddply (uspopage, ", transform, 
Percent = Thousands / sum(Thousands) * 100) 


计算 得 出 百分比 之 后 ， 剩 余 的 绘图 步骤 与 绘制 普通 堆积 面积 图 的 步骤 一 样 ， 如 图 424 所 示 。 
ggplot (uspopaga_prop，aes (x=Year，y-Percent，fill=hgeGroup)) + 
geom_area (colour="black", size=.2, alpha=.4) + 
scale fill brewer (palette=" breaks=rev (levels (uspopage$AgeGroup))) 




















4-24 ”百分比 堆积 面积 图 


讨论 
让 我 们 更 深入 查看 上 面 的 数据 ， 并 探究 一 下 数据 的 计算 过 程 : 
uspopage 


Year AgeGroup Thousands 
1900 <5 9181 
1900 5-14 16966 
1900 15-24 14951 
1900 25-34 12161 
1900 35-44 9273 
1900 45-54 6437 
1900 55-64 4026 
1900 >64 3099 
1901 <5 9336 
1901 5-14 17158 


调用 ddply () 函数 ， 按 照 变量 Year 将 数据 集 拆 分 为 多 个 独立 的 数据 框 ， 对 所 有 数据 
框 执行 transform() 函数 并 计算 每 个 数据 框 对 应 的 Percent。 最 后 ， 调 用 ddply () 函 
数 将 所 有 数据 框 重组 在 一 起 : 


uspopage_prop <- ddply (uspopage, * 
Percent = 


ar", transform, 
usands / sum(Thousands) * ) 








Year AgeGroup Thousands Percent 
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1900 <5 9181 12.065340 
1900 5-14 16966 22.296107 
1900 15-24 14951 19.648067 
1900 25-34 12161 15.981549 


1900 35-44 9273 12.186243 

1900 45-54 6437 8.459274 

1900 55-64 4026 5.290825 

1900 >64 3099 4.072594 

1901 <5 9336 12.033409 

1901 5-14 17158 22.115385 
另 见 


更 多 关于 分 组 计算 数据 的 内 容 可 参见 15.17 节 。 


4.9 添加 置信 域 
问题 

如 何 为 折线 图 添加 置信 域 ? 
方法 


运行 geom_ribbon () ， 然 后 分 别 映射 一 个 变量 给 ymin 和 ymax。 


climate 数据 集中 的 Anomaly1l0y 变量 表示 了 各 年 温度 相对 于 1950 一 1980 平均 水 平 变 
异 〈 以 摄氏 度 衡量 ) 的 10 年 移动 平均 。 变 量 Uncl0y 表示 其 95% 置信 水 平 下 的 置信 区 
间 。 我 们 令 ymax 和 ymin 分 别 设 定 为 anomaly1l0y 加 减 Uncl0y〔 见 图 4-25): 


library(gcookbook) 上 为 了 使 用 数据 





# 抓 取 climate 数据 集 的 集 
clim <- subset (climate, Source 
select=c("Y 








clim 


Year Anomalyl0y Uncl0y 
1800 -0.435 0.505 
1801 -0.453 0.493 
1802 -0.460 0.486 


2003 0.869 0.028 
2004 0.884 0.029 


# 将 置信 域 绘制 为 阳 影 
ggplot (clim, aes(x=Year, y=Anomalyl0y)) + 


geom_ribbon (aes (ymin=Anomaly10y-Unc10y, ymax=Anomalyl0y+Unc10y) ,alpha=0.2) + 


geom line() 


阴影 部 分 的 颜色 实际 上 是 黑 灰 色 ， 但 看 起 来 几乎 是 透明 的 。 这 是 
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为 我 们 通过 设 定 


alpha=0.2 将 阴影 部 分 的 透明 度 设 定 为 80%。 


+10 | ae 








2000 








图 4-25 ”以 阴影 区 域 表示 置 信 域 的 折线 图 

讨论 

注意 ， 上 面 的 绘图 命令 中 geom_ribbon () 函数 的 调用 顺序 在 geom_line () 函数 之 前 ， 
因而 ， 折 线 被 绘制 在 阴影 区 域 上 面 的 图 层 上 。 如 果 颠 倒 调用 顺序 的 话 ， 阴 影 区 域 的 颜 


色 有 可 能 使 折线 模糊 不 清 。 在 本 例 中 ， 似 乎 这 不 成 问题 ， 这 是 因为 本 例 中 的 阴影 区 域 
几乎 是 全 透明 的 ， 但 当 阴 影 区 域 部 分 不 透明 时 这 个 问题 就 很 严重 。 


除了 使 用 阴影 区 域 ， 我 们 还 可 以 使 用 虚线 来 表示 置信 域 的 上 下 边界 〈 见 图 4-26); 


## 使 用 虚线 表示 置信 域 的 上 下 这 界 

ggplot (clim, aes(x=Year, y=Anomalyl0y)) + 
geom line (aes (y=Anomalyl0y-Uncl0y), colour="grey50", linetype="dotted") + 
geom_line (aes (y=Anomalyl0y+Unc10y), colour="grey50", linetype="dotted") + 


geom line() 























另 见 
除了 表示 置信 域 之 外 ， 阴 影 区 域 还 可 以 用 来 表示 其 他 内 容 ， 比 如 两 个 变量 之 间 的 差 值 等 。 


在 4.7 节 中 的 面积 图 中 ， 阴 影 区 域 的 y 轴 范围 是 0 到 y， 而 图 4-26 中 y 轴 的 范围 是 
ymin 到 ymax。 
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散 点 医 


散 点 图 通常 用 来 刻画 两 个 连续 型 变量 之 间 的 关系 。 绘 制 散 点 图 时 ， 数 据 集中 的 每 一 个 观 
测 值 都 由 散 点 图 中 的 一 个 点 来 表示 。 通 常 ， 人 们 还 会 向 散 点 图 中 添加 一 些 直线 ， 以 用 来 
表示 基于 某 些 统计 模型 的 预测 值 。 当 散 点 图 中 的 数据 趋势 难以 用 肉眼 识别 时 ， 这 些 直线 
对 我 们 理解 数据 的 特征 很 有 帮助 。 上 述 这 些 操作 在 R 和 ggplot2 中 都 是 很 容易 做 到 的 。 


当 数 据 集 很 大 时 ， 散 点 图 上 的 数据 点 会 相互 重合 ， 此 时 ， 很 难 在 图 上 清楚 地 显示 出 所 
有 的 数据 点 。 这 时 候 ， 我 们 可 以 先 对 数据 进行 加 工 ， 再 绘制 散 点 图 。 本 章 也 将 介绍 一 
些 加 工 数据 的 操作 。 


5.1 绘制 基本 散 点 图 


问题 

如 何 绘制 散 点 图 ? 

方法 

运行 geom_point () 函数 ， 分 别 映射 一 个 变量 到 x 和 y。 


heightweight 是 个 多 列 数据 集 ， 接 下 来 的 例子 我 们 只 用 到 其 中 两 列 〈 见 图 5-1)。 
教 所 











library(gcookbook) # 为 了 





第 到 出 我 们 用 到 的 天 
heightweight{, c("ageYear", ， ")] 


ageYear heightIn 


11.92 56.3 
12.92 62.3 
12.75 63.3 
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13.92 62.0 
12.58 59.3 


ggplot (heightweight, aes (x=ageYear, y=heightIn)) + geom point() 




















图 5-1 基本 散 点 图 

讨论 

通过 设 定点 形 (shape) 参数 可 以 在 散 点 图 中 绘制 默认 值 以 外 的 点 形 。 比 如 ， 我 们 常 
用 空心 图 〈 点 形 21) 代替 实心 圆 〈 点 形 16)， 如 图 5-2 左 图 所 示 : 


ggplot (heightweight, aes (x=ageYear, y=heightIn)) + geom point (Shape=21) 

















图 5-2 左 图 : 空心 圆 散 点 图 ( 即 点 形 21) 右 图 : 数据 点 更 小 的 的 散 点 图 
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大 小 〈size) 参数 可 以 控制 图 中 点 的 大 小 。 系 统 默 认 的 大 小 size) 值 等 于 2， 下 面 
我 们 将 其 设 定 为 size=1.5， 以 得 到 更 小 的 数据 点 〈 见 图 5-2 右 图 ): 
ggplot (heightweight, aes(x=ageYear, y=heightIn)) + geom point (size=1.5) 

二 在 某 些 系统 平台 上 ， 点 形 16 显示 在 屏幕 上 或 者 给 出 到 PNG 等 位 图 文件 时 会 显示 
锯齿 状 边沿 。 此 时 ， 我 们 可 用 点 形 19 代替 点 形 16 对 其 进行 修正 。 虽然 两 者 同 为 
?实心 国 ， 但 大 多 数 时 候 ， 点 形 19 的 输出 结果 显示 得 较为 平滑 ( 见 图 5-3)。 更 多 关 

于 抗 锯齿 (anti-aliased ) 的 内 容 可 参见 14.5 节 . 




















图 5-3 点 形 16 和 点 形 19 在 某 些 位 图 设备 上 的 输出 结果 


5.2 使 用 点 形 和 颜色 属性 ， 并 基于 某 变 量 对 数据 
进行 分 组 

问题 

如 何 基 于 某 个 变量 对 数据 进行 分 组 ， 并 用 形状 和 颜色 属性 来 表示 ? 


方法 


将 分 组 变量 映射 给 点 形 (shape) 和 颜色 (colour) 属性 。heightweight 是 个 多 列 数 
据 集 ， 接 下 来 的 例子 中 ， 我 们 只 用 其 中 三 列 : 


library (gcookbook) # 为 了 使 用 数据 
关 列 出 要 用 的 三 个 列 
heightweight [, c("sex", "ageYear", "heightIn" 





sex ageYear heightIn 
f 11.92 56.3 
£f 12.92 62.3 
£f 12.75 63.3 


m 13.92 62.0 
m 12.58 59.3 
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通过 将 变量 sex 映射 给 colour 或 shape， 我 们 可 以 按 变 量 sex 对 数据 点 进行 分 组 ( 见 
图 5-4): 


ggplot (heightweight, aes (x=ageYear, y=heightIn, colour=sex)) + geom_point () 


ggplot (heightweight, aes (x=ageYear, y=heightIn, shape=sex)) + geom point() 
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图 5-4 左 图 : 按 映射 colour 的 变量 对 数据 进行 分 组 右 图 : 按 映射 给 shape 的 变量 对 数据 进 
行 分 组 

讨论 

分 组 变量 必须 是 分 类 变量 ， 换 言 之 ， 它 必须 是 因子 型 或 者 字符 串 型 的 向 量 。 如 果 分 组 变 
量 以 数值 型 变量 进行 存储 ， 则 需要 将 它 转化 为 因子 型 变量 之 后 ， 才 能 以 其 作为 分 组 变量 。 
可 以 将 一 个 变量 同时 映射 给 shape 和 colour 属性 。 当 有 多 个 分 组 变量 时 ， 可 以 将 它 
们 分 别 映射 给 这 两 个 图 形 属 性 。 下 面 ， 我 们 把 sex 变量 同时 映射 给 shape 和 colour 
属性 〈 见 图 5-5 左 图 ): 


ggplot (heightweight, aes(x=ageYear, y=heightIn, shape=sex, colour=sex)) + 





geom point (} 

散 点 图 默认 的 点 形 和 颜色 可 能 不 是 很 吸引 人 ， 通 过 调用 scale_shape_manual () 函数 
可 以 使 用 其 他 点 形 ; 调用 scale_colour_brewer () 或 者 scale_colour_manual() 函数 
可 以 使 用 其 他 调 色 板 。 
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图 5-5 左 图 : 将 分 组 变量 同时 映射 给 右 图 : 手动 设置 点 形 和 颜色 的 散 点 图 
系统 会 根据 分 组 变量 将 分 属 各 组 的 数据 点 设置 为 不 同 的 点 形 和 颜色 《〈 见 图 5-5 右 图 ): 


ggplot (heightweight, aes(x=ageYear, y=heightIn, shape=sex, colour=sex)) + 
geom point () + 
scale_shape manual (values=c (i, 7)) + 
scale_colour brewer (palette="Set1") 


另 见 
要 使 用 不 同 于 默认 设置 的 点 形 ， 可 参见 5.3 节 的 内 容 。 要 使 用 不 同 的 绘图 颜色 ， 可 参 
见 本 书 第 12 章 的 内 容 。 


5.3 ”使 用 不 同 于 默认 设置 的 点 形 


问题 
如 何在 散 点 图 中 使 用 不 同 于 默认 值 的 点 形 ? 


方法 


通过 指定 geom_point () 函数 中 的 点 形 〈shape) 参数 可 以 设 定 散 点 图 中 所 有 数据 点 的 
点 形 〈 见 图 5-6): 
library (gcookbook) # 为 了 使 用 数据 





ggplot (heightweight, aes(x=ageYear, y=heightIn)) + geom_point (shape=) 


如 果 已 将 分 组 变量 映射 给 shape， 则 可 以 调用 scale_shape_manual () 函数 来 修改 点 形 : 


兰 使 用 赂 大 且 自 定义 点 形 的 数据 点 
ggplot (heightweight, aes (x=ageYear, y=heightIn, shape=sex)) + 
geom point (size= ) + scale_shape manual (values=c(;, <)) 
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图 5-6 左 图 : 自 定 义 点 形 属性 的 散 点 图 “ 右 图 : 将 分 组 变量 映射 给 自 定义 点 形 属性 的 散 点 图 

讨论 

图 57 显示 了 R 绘图 中 可 调用 的 点 形 。 其 中 一 些 点 形 只 有 边框 线 ， 一些 只 有 实心 区 域 ， 还 有 
一 些 则 是 由 可 分 离 的 边框 线 和 具有 填充 色 的 实心 区 域 共 同 组 成 我 们 也 可 以 用 字符 作 点 形 )。 


plot symbols : points (... pch ="*, cex=3) 
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图 5-7 RR 绘图 系统 可 以 调用 的 点 形 

点 形 1-20 的 点 的 颜色 ,包括 实心 区 域 的 颜色 都 可 由 co1lour 参数 来 控制 。 对 于 点 形 
21-25 而 言 ， 边 框 线 和 实心 区 域 的 颜色 则 分 别 由 colour 和 fill 参数 来 控制 。 

我 们 可 以 用 点 形 和 填充 色 〈 空 心 或 实心 ) 属性 分 别 表 示 两 个 不 同 的 变量 。 但 这 一 过 程 
不 太 直接 ， 我 们 要 选择 一 个 同时 具有 colour 和 fill 属性 的 点 形 及 一 个 包括 NA 和 其 
他 颜色 的 调 色 板 〈Na 会 生成 一 个 空心 的 形状 )。 下 面 以 heightweight 数据 集 为 例 ， 同 
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时 在 数据 集中 增加 一 个 用 来 标识 儿童 体重 是 否 超过 100 磅 的 列 〈 见 图 5-8): 


## 生成 一 个 数据 副本 

hw <- heightweight 

上 # 将 数据 校 照 是 否 大 于 100 矿 分 为 两 组 

hw$weightGroup <- cut (hw$weightLb, breaks=c(-Inf, 100, Inf), 
labels=c ("< 100", ">= 100")) 


着 使 用 具有 颜色 和 填充 色 的 点 形 及 对 应 于 空 值 (NA) 和 填充 色 的 颜色 
ggplot (hw, aes (x=ageYear, y=heightIn, shape=sex, fill=weightGroup)) + 
geom point (size=?.5) + 
scale_shape manual (values=c(2], 24)) + 
scale fill manual (values=c (NA, "black"), 
guide=guide_legend (override.aes=list (shape=21))) 








ageYear 











图 5-8 把 两 个 分 组 变量 分 别 映射 给 点 形 和 填充 色 的 散 点 图 


另 见 
更 多 关于 使 用 不 同 颜色 的 内 容 ， 可 参见 本 书 第 12 章 。 更 多 关于 将 连续 型 变量 重 编码 
为 分 组 变量 的 内 容 ， 可 参见 15.14 节 。 


5.4 ”将 连续 型 变量 映射 到 点 的 颜色 或 大 小 属性 上 


问题 
如 何 使 用 散 点 图 中 的 颜色 和 大 小 属性 来 刻画 第 三 个 连续 型 变量 ? 
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方法 
将 连续 型 变量 映射 到 size 或 colour 属性 上 即 可 。heigthweight 数据 集 有 很 多 列 ， 下 
面 的 例子 中 只 用 其 中 四 列 : 


library(gcookbook) 8 为 





地 列 出 要 用 到 的 四 
heightweight[, c( F ; 5 )] 


sex ageYear heightIn weightIb 
£ 11.92 56.3 85.0 
| 62.3 105.0 
f 12.75 63.3 。 108.0 


夺 13.92 62.0 107.5 

m 12.58 59.3 87.0 

5.1 节 中 的 散 点 图 刻画 了 两 个 连 

示 第 三 个 连续 型 变量 weightLb， 
size， 如 图 5-9 所 示 。 


ggplot (heightweight, aes (x=ageYear, y=heightIn, colour=weightLb)) + geom point() 






变量 ageYear 和 heightIn 的 关系 。 如 果 想 要 表 
页 将 其 映射 给 其 他 的 图 形 属性 ， 例 如 ，colour 和 


ggplot (heightweight, aes(x=ageYear, y=heightIn, size=weightLb)) + geom point() 
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图 5-9 左 图 : 将 第 三 个 连续 型 变量 映射 给 颜色 右 图 : 将 第 三 个 连续 型 变量 映射 给 大 小 
讨论 


基本 散 点 图 通过 将 两 个 连续 型 变量 分 别 映 射 给 x 轴 和 y 轴 来 刻画 它们 之 间 的 关系 。 当 
变量 超过 两 个 时 ， 我 们 必须 将 它们 映射 到 其 他 图 形 属性 上 ， 如 数据 点 的 大 小 和 颜色 。 
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人 类 对 于 感知 空间 位 置 的 微小 变化 很 擅长 ， 因 此 ， 我 们 可 以 以 较 高 的 精度 解释 被 映射 
到 x* 轴 和 ? 轴 上 的 变量 。 但 我 们 对 于 图 形 颜色 和 大 小 的 变化 不 太 敏 锐 ， 所 以 ， 我 们 只 
能 以 较 低 的 精度 对 映射 到 这 些 属 性 上 的 变量 进行 解释 。 因 此 ， 只 有 当 一 个 变量 不 需要 
高 精度 的 解释 时 ， 它 才 适 合 被 映射 给 图 形 的 大 小 和 颜色 属性 。 
当 将 变量 映射 给 大 小 (size》 属 性 时 ， 绘 制 的 图 形 结果 常常 具有 误导 性 。 比 如 在 图 5-9 
中 ， 最 大 点 对 应 的 面积 是 最 小 点 所 对 应 面积 的 36 倍 ， 然 而 ， 前 者 对 应 的 变量 值 仅 为 
后 者 的 3.5 倍 。 如 果 点 的 大 小 正比 于 变量 值 对 于 图 形 展示 很 重要 的 话 ， 则 可 以 修改 
-下 数据 点 大 小 的 变化 范围 。 默 认 情 况 下 ， 点 的 大 小 为 1 一 6 ms。 运 行 scale_size_ 
continuous (range=c(2，5)) 可 以 将 其 修改 为 2 一 5 ms。 然 而 ， 由 于 点 的 大 小 与 点 的 
直径 或 者 面积 是 非 线性 上 映射， 所以， 这 个 表示 值 依然 不 精确 〈 使 点 的 面积 与 变量 值 成 
正比 的 相关 细节 ， 可 以 参见 5.12 节 的 内 容 )。 
对 于 颜色 ， 实 际 上 有 两 个 相关 的 图 形 属性 可 以 使 用 ， 即 colour 和 fil1。 对 于 大 多 数 
点 形 ， 我 们 都 是 通过 colour 属性 设 定 颜色 。 然 1 形 21-25 除了 实心 区 域 还 有 边框 
线 ， 此 时 实心 区 域 的 颜色 由 fi11 来 控制 。 当 数据 点 颜色 较 浅 时 ， 带 边框 线 的 点 形 就 
显得 非常 有 用 ， 因 为 此 时 边框 线 可 以 将 数据 点 与 背景 色 区 分 开 ， 如 图 5-10 所 示 。 本 例 
中 将 色 阶 设 定 为 由 黑 至 白 ， 同 时 增加 数据 点 的 大 小 ， 以 便于 看 出 填充 色 。 

ggplot (heightweight, aes(x=ageYear, y=heightIn, fill=weightLb)) + 


geom point (shape=2}, size=2.5) + 
scale_fill gradient (low="black", high="white") 



























# 使 用 guide_legend () 函数 以 离散 的 图 例 代 震 色 阶 
ggplot (heightweight, aes(x=ageYear, 了 eightIn, fill=weightLb)) + 
geom point (shape=21, size=2.5) 
scale_fill gradient (low ", high="white", breaks=seq(70,17),by=20), 
guide=guide_legend()) 
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图 5-10 左 图 : 带 边框 线 、 将 连续 型 变量 映射 给 fi11 的 散 点 图 “ 右 图 : 使 用 离散 型 的 图 例 代 
蔡 连 续 型 色 阶 
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当 我 们 把 一 个 连续 型 变量 映射 给 某 个 图 形 属性 之 后 ， 这 并 不 妨碍 我 们 同时 将 分 类 变 
量 映射 给 其 他 图 形 属性 。 图 5-11 中 ， 我 们 将 变量 weightLb 映射 给 点 size 属性 ， 同 
时 将 变量 sex 映射 给 colour 属性 。 图 形 中 有 很 多 重合 的 数据 点 ， 因 此 ， 我 们 设 定 
alpha=.5 将 数据 点 设 定 为 半 透明 。 调 用 scale_size_area() 函数 使 数据 点 的 面积 正 
比 于 变量 值 (参见 5.12 节 )， 同 时 ， 修 改 调 色 板 使 图 形 更 吸引 眼球 : 


ggplot (heightweight, aes (x=ageYear, y=heightIn, size=weightLb, colour=sex)) + 
geom point (alpha=. 5) + 
scale_size area() + 手 使 数据 点 面积 正比 于 变量 值 
scale_colour_brewer (palette="Seri") 





@ 100 
®@125 
二 150 





12 14 16 
ageYear 








图 5-11 将 连续 型 变量 映射 给 点 大 小 ， 同 时 将 分 类 变量 映射 给 颜色 属性 


将 某 个 变量 映射 给 si ze 属性 时 ， 最 好 避免 将 其 他 变量 映射 给 shape 属性 。 因 为 不 同 
点 形 的 点 大 小 很 难 相互 比较 。 比 如 ， 大 小 为 4 的 三 角形 看 起 来 比 大 小 为 3.5 的 圆 形 更 
小 。 同 时 ， 有 些 形状 本 身 就 具有 不 同 的 大 小 : 点 形 16 和 点 形 19 都 是 圆 形 ， 但 无 论点 
大 小 设 定 为 多 少 ， 点 形 19 的 圆 总 是 比 点 形 16 的 圆 看 起 来 更 大 。 


另 见 
使 用 与 默认 设置 不 同 的 颜色 ， 可 参考 126 节 的 内 容 。 关 于 创建 气泡 图 的 内 容 可 参见 512 节 。 


5.5 ”处理 图 形 重生 


问题 
散 点 图 中 有 大 量 数 据点 时 ， 如 何 避 免 它 们 互相 重 登 ? 
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方法 






针对 大 数据 集 绘制 散 点 图 时 ， 图 中 各 个 数据 点 会 彼此 遮盖 ， 从 而 妨碍 我 们 准确 地 评估 
数据 的 分 布 人 这 就 是 所 谓 的 图 形 重 登 〈overplotting)。 如 果 图 形 的 重 驮 程度 较 低 ， 
我 们 可 以 通过 使 用 较 小 的 数据 点 或 者 使 用 不 会 遮盖 其 他 数据 点 的 点 形 〈 例 如 1 号 的 空 









心 圆 ) 来 避免 数据 重合 。5.1 节 中 的 图 5-2 就 两 种 解决 方案 都 进行 了 演示 。 

如 果 图 形 的 重 和 登 程度 较 高 ， 下 面 是 一 系列 可 行 的 解决 方案 ; 

。 使 用 半 透 明 的 点 ; 

。 将 数据 分 箱 〈bin)， 并 用 矩形 表示 《〈 适 用 于 量化 分 析 ); 

。 将 数据 分 箱 (bin)， 并 用 六 边 形 表示 ; 

。 使 用 箱 线 图 。 

讨论 

图 5-12 中 包含 54 000 个 数据 点 ， 各 个 数据 点 重合 严重 ,我们 很 难看 清楚 图 中 不 同 区 
域 的 数据 点 的 相对 密度 ; 


p<- ggplot (diamonds, 














p + geom point () 
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图 5-12 ”54 000 个 数据 点 的 重 登 情况 


设 定 alpha 参 数 可 以 使 数据 点 半 透 明 ， 如 图 5-13 所 示 。 通 过 设 定 alpha=.1 和 
alpha=.01 使 数据 点 分 别 具 有 90% 和 99% 的 透明 度 


sp + geom point (alpha=.1) 
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图 5-13 左 图 : alpha=.1 的 半 透 明 的 散 点 图 右 图 : alpha=.01 
图 中 ， 变 量 carat 的 取 值 为 整数 和 “0.5” 的 地 方 有 很 多 垂直 带 ， 这 意味 着 人 们 常 按照 这 


些 尺 寸 切割 钻石 。 不 过 ， 由 于 图 中 数据 点 过 于 致密 ， 即 使 在 数据 点 透明 度 为 99% 的 情况 
下 ， 图 上 的 大 部 分 区 域 依然 显示 为 实心 的 黑色 ， 且 数据 点 的 分 布 情况 依然 相当 模糊 。 















对 于 大 多 数 图 形 ， 在 输出 为 失 量 (如 PDF、EPS 和 SVG ) 文件 时 比 位 图 文件 (如 TIFF 

和 PNG) 要 小 ， 然而， 在 数据 点 非常 多 时 ， 输 出 的 矢量 文件 会 非常 大 且 泻 染 过 程 很 

” 慢 一 一 这 里 的 具有 99% 透明 度 的 散 点 图 的 大 小 是 1.5 MB ! 在 这 种 情况 下 ， 高 精度 的 位 
图 文件 会 更 小 ， 且 在 电脑 屏幕 上 的 显示 炎 度 更 快 。， 更 多 信息 可 参见 本 书 第 14 章 。 

另外 一 个 解决 方案 是 将 数据 点 分 箱 〈bin) 并 以 矩形 来 表示 ， 同 时 将 数据 点 的 密度 映射 

为 矩形 的 填充 色 ， 如 图 5-14 所 示 。 在 分 箱 绘图 情况 下， 垂直 带 几乎 看 不 见 了 。 图 5-14 

中 ， 左 下 方 的 数据 点 密度 更 大 ， 这 意味 着 大 多 数 钻石 都 是 比较 小 且 廉 价 的 。 
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图 5-14 左 图 : 调用 stat_bin2d() 函数 对 数据 进行 分 箱 ” 右 图 : 箱 数 更 多 、 手 动 设 定数 据点 
颜色 及 图 例 的 散 点 图 
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默认 情况 下 ，stat_bin_2d() 函数 分 别 在 x 轴 和 ?了 轴 方 向 上 将 数据 分 割 为 30 个 组 ， 总 
计 900 个 箱子 。 在 第 二 个 版 本 中 ， 我 们 将 箱 数 设 定 为 bin=50。 

图 中 数据 点 的 默认 颜色 看 起 来 难以 区 分 ， 这 是 因为 它们 的 光度 (luminosity) 变化 不 大 。 
在 第 二 个 版 本 中 我 们 通过 scale_fill_gradient () 重新 设 定数 据点 的 颜色 ， 并 指定 颜 
色 的 最 小 色 阶 low 和 最 大 色 阶 high。 默 认 情 况 下 ， 图 例 中 不 包括 最 小 值 ， 这 是 因为 颜 
色 标 度 的 范围 不 是 从 0 开始 的 ， 而 是 以 各 箱 中 的 最 小 非 零 值 一 一 本 例 中 是 1 一 一 为 起 
始点 的 。 如 果 想 在 图 例 中 包括 零 值 ( 见 图 5-14 右 图 ) ， 可 以 调用 1imits 参数 手动 将 
范围 设 定 为 0 到 最 大 值 6000〔 见 图 5-14 右 图 )。 


sp + stat_bin2d() 





sp + stat_bin2d(bins=50) + 
scale_fill gradient (low="lightblue", high="red", limits=c(0, )) 
如 果 不 想 将 数据 分 箱 并 以 矩形 表示 的 话 ， 可 以 调用 stat_binhex () 函数 使 用 六 边 形 代 
替 〈 见 图 5-15)。 该 函数 的 工作 机 制 与 stat_bin2d() 类 似 。 使 用 该 函数 之 前 ， 必 须 先 
运行 install.packages ("hexbin") 命令 安装 hexbin 包 。 

















图 5-15 左 图 : 调用 stat_binhex() 函数 对 数据 进行 分 箱 “ 右 图 : 落 在 分 箱 范围 外 面 的 格子 显 
示 为 灰色 
library (hexbin) 
sp + stat binhex() + 
scale_fill gradient (low="lightblue", high="red", 


limits=c (0, )) 


sp + stat binhex() + 





scale_fill_gradient (low="iightblue", high="re 
breal ’ 日 ’ ) 
limits=c( )) 
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对 于 这 两 种 方法 ， 在 手动 设置 分 箱 范围 时 ， 因 为 数据 点 太 多 或 者 太 少 ， 会 出 现 一 个 落 
在 分 箱 范围 外 的 箱子 ， 且 这 个 箱子 的 颜色 会 显示 为 灰色 ， 而 不 是 最 大 值 或 最 小 值 对 应 
的 颜色 ， 如 图 5-15 右 图 所 示 。 


当 散 点 图 的 其 中 一 个 数据 轴 或 者 两 个 数据 轴 都 对 应 于 离散 型 数据 时 ， 也 会 出 现 图 形 重 
登 的 情况 ， 如 图 5-16 所 示 。 这 时 候 ， 可 以 调用 position_ jitter() 函数 给 数据 点 增 
加 随机 扰动 。 默 认 情况 下 ， 该 函数 在 每 个 方向 上 添加 的 扰动 值 为 数据 点 最 小 精度 的 
40%， 不 过 ， 也 可 以 通过 width 和 height 参数 对 该 值 进行 调整 。 


spl <- ggplot (ChickWeight, aes (x=Time, y=weight)) 











spl + geom point () 


spl + geom_ point (position="jitter") 
# 也 可 以 调用 geom_jitter() 函数 ， 两 者 是 等 价 的 


spl + geom point (position=position jitter(width=,5, height=0)) 
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图 5-16 左 图 : 变量 x 为 离散 型 的 数据 集 中间 : 添加 随机 扰动 ” 右 图 : 只 在 水 平方 向 添加 随 
机 扰动 


当 数 据 集 对 应 于 一 个 离散 型 数据 轴 和 一 个 连续 型 数据 轴 时 ， 箱 线 图 可 能 是 一 种 较 好 的 
展示 方式 ， 如 图 5-17 所 示 。 箱 线 图 所 表现 的 信息 与 散 点 图 略 有 不 同 ， 因 为 它 很 难 反映 
出 离散 坐标 轴 上 每 个 位 置 的 数据 点 数量 的 信息 。 箱 线 图 的 绘制 方式 有 时 候 是 缺点 ， 但 
有 时 候 却 是 恰如其分 的 可 视 化 方法 。 

对 于 chickweights 数据 集 ， 其 对 应 的 x 轴 本 质 上 是 离散 的 ， 但 其 被 存储 为 数值 型 向 
量 ， 因 此 ，ggplot () 函数 不 知 如 何 对 该 数据 集 进行 分 组 。 如 果 不 告诉 ggplot () 函 
数 如 何 对 数据 进行 分 组 ， 会 得 到 如 图 5-17 右 图 所 示 的 结果 。 调 用 aes (group=...) 
可 以 告诉 ggplot () 如 何 对 数据 进行 分 组 。 下 面 ， 按 Time 变量 的 取 值 对 数据 进行 
分 组 : 


spl + geom boxplot (aes (group=Time)) 
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图 5-17 左 图 : 分 组 绘制 箱 线 图 “ 右 图 : 不 设 定 分 组 变量 的 绘图 结果 


另 见 
除了 对 数据 进行 分 箱 ， 我 们 还 可 以 展示 二 维 的 密度 估计 。 具 体操 作 参见 6.12 节 。 


5.6 ”添加 回归 模型 拟 合 线 


问题 
如 何 向 散 点 图 中 添加 回归 模型 拟 合 线 ? 


方法 
运行 stat_smooth () 函数 并 设 定 method=lm 即 可 向 散 点 图 中 添加 线性 回归 拟 合 线 ， 这 
将 调用 lm() 函数 对 数据 拟 合 线性 模型 。 首 先 ， 我 们 将 基本 绘图 对 象 存储 在 对 象 sp 中 ， 
然后 ， 再 添加 更 多 的 图 形 部 件 : 

Tibrary(gcookbook) ‘为 了 使 用 数据 


# 基本 给 图 对 铺 
sp <- ggplot (heightweight, aes(x=ageYear, y=heightIn)) 


sp + geom point() + stat_smooth (method=lm) 


默认 情况 下 ，stat_smooth () 函数 会 为 回归 拟 合 线 添加 95% 的 置信 域 ， 置 信 域 对 应 的 
置信 水 平 可 通过 设置 level 参数 来 进行 调整 。 设 定 参数 se=FALSE 时 ， 系 统 将 不 会 对 
归 拟 合 线 添加 置信 域 〈 见 图 5-18): 


打 99$ 置信 域 
sp + geom point () + stat smooth(method=lm, level=?.33) 





回 
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sp + geom_point() + stat_smooth (method=lm，se=PALSE) 








ageyear ageyear 











图 5-18 左上 : 带 95% 置信 域 的 线性 拟 合 线 ”左下 : 带 99% 置信 域 的 线性 拟 合 线 ”右上 : 没 
有 置信 域 的 线性 拟 合 线 ” 右 下 : 数据 点 为 灰色 的 黑色 线性 拟 合 线 

拟 合 线 的 默认 颜色 是 蓝 色 ， 可 以 通过 设 定 colour 参数 对 其 进行 调整 。 与 其 他 直线 一 
样 ， 我 们 可 以 对 拟 合 线 的 线 型 (linetype) 和 粗细 size) 进行 设置 。 为 了 突出 直线 ， 
可 设置 点 的 colour 以 使 数据 点 不 那么 突出 ( 见 图 5-18 右 下 图 ): 


sp + geom point (colour= 内 二 
stat_smooth (method=lm, se=FALSE, colour=" oF 


讨论 

线性 模型 并 不 是 唯一 可 对 数据 进行 拟 合 的 模型 一 一 事实 上 ， 它 甚至 不 是 默认 的 模 
型 。 如 果 在 调用 stat_smooth () 函数 时 未 指定 模型 类 型 ， 那 么 ， 该 函数 会 对 数据 拟 合 
loess 曲线 〈 局 部 加 权 多 项 式 )， 如 图 5-19 所 示 。 下 面 两 行 命令 的 输出 结果 相同 : 
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") + stat_smooth () 
") + stat_smooth (method=loess) 


sp + geom point (colour=" 
sp + geom point (colour=" 

















图 5-19 ”局 部 加 权 多 项 式 拟 合 线 
通过 将 参数 传递 给 stat_smooth () 函数 可 以 设 定 loess () 函数 中 的 其 他 附加 参数 。 


另 一 种 常用 的 模型 是 Logistic 回归 。Logistic 回归 对 heightweight 数据 集 不 适用 ,但 
对 MASS 包 中 的 biopsy 数据 集 拟 合 效果 良好 。 该 数据 集 包含 9 个 与 乳腺 癌 活 检 组 织 
关 的 指标 以 及 肿瘤 的 分 类 ， 包 括 良 性 (benign) 和 恶性 (malignant) 两 种 。 在 预 处 
理 Logistic 回归 的 数据 时 ， 我 们 必须 将 具有 两 个 水 平 benign 和 malignant 的 因子 型 变 
量 转化 为 具有 0 和 1 取 值 的 向 量 。 首 先 ， 为 变量 bi op sy 创建 一 个 副本 ， 接 着 将 其 重 
编码 为 数值 型 的 变量 并 存储 在 列 classn 中 : 


library (MASS) # 为 了 使 用 数据 

















b <- biopsy 


b$classn[b$clas. 
bs$classn[b$clas: 





b 
ID V1 V2 V3 V4 V5 V6 V7 V8 V9 class classn 
1000025 5 1 1 1 2 1 3 1 1 benign 0 
1002945 5 4 4 5 7 10 3 2 1 benign 0 
1015425 3 1 1 1 2 2 3 1 1 benign 0 
897471 4 8 6 4 3 4 10 6 1 malignant 1 
897471 4 8 8 5 4 510 4 1 malignant 1 


虽然 ， 涉 及 的 指标 很 多 ， 但 在 本 例 中 ， 我 们 只 探寻 变量 V1 肿块 厚度 ) 和 肿瘤 类 型 的 
关系 。 图 中 数据 点 重 肥 程度 严重 ， 因 此 ， 需 要 向 数据 点 添加 一 些 扰动 ， 同 时 ， 将 数据 
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点 设置 为 半 透 明 (alpha=.4)、 点 形 设置 为 空心 贺 (shape=21)， 并 使 用 略 小 的 数据 点 
(size=1.5)。 令 stat_smooth() 函数 使 用 选项 为 family=binomial 的 glm() 函数 向 散 
点 图 添加 Logistic 回归 拟 合 线 〈 见 图 5-20): 


ggplot (b, aes(x=V1, y=classn)) + 
geom point (position=position jitter (width=).3, height=0,06), alpha= 
shape=21, size=i,5) + 
stat_smooth (method=glm, family=binomial) 
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图 5-20 ”Logistic 模型 


如 果 散 点 图 对 应 的 数据 集 按照 某 个 因子 型 变量 进行 了 分 组 ， 且 已 将 分 组 变量 映射 给 
colour 和 shape 属性 ， 上 述 命令 将 针对 各 个 组 分 别 绘制 模型 拟 合 线 。 首 先 ， 创 建 一 
个 基本 绘图 对 象 sps ; 然后， 向 其 添加 loess 线 : 最 后 ， 将 点 的 颜色 设 定 为 半 透 明 
(alpha=.4) 以 弱化 数据 点 的 显示 〔 见 图 5-21)。 


sps <- ggplot (heightweight, aes (x=ageYear, y=heightIn, colour=sex)) + 
geom point () + 
scale_colour brewer (palette="Set1") 


sps + geom smooth() 
注意 ， 男 性 分 组 的 蓝 色 拟 合 线 并 没有 绘制 到 图 形 的 右边 界 。 其 中 有 两 个 原因 : 第 一 个 
原因 在 于 ， 默 认 情况 下 stat_smooth 函数 将 预测 值 的 范围 限定 在 预测 数据 对 应 的 范围 
内 (对 应 于 x 轴 ); 第 二 个 原因 在 于 ， 即 使 对 模型 进行 外 推 ，loess () 函数 也 只 能 根据 
整 组 数据 对 应 的 x 轴 的 范围 进行 预测 。 


如 果 想 基于 数据 集 对 拟 合 线 进行 外 推 ， 如 图 521 右 图 所 示 ， 必 须 保证 绘图 过 程 中 能 够 调用 
的 是 支持 外 推 的 模型 ， 比 如 1m() ， 并 将 选项 fullrange-TRUE 传递 给 stat_smooth () 函数 : 
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sps + geom smooth (method=lm, se=FALSE, fullrange=TRUE) 








全 12 





14 
agevear 


14 
ageYear 








图 5-21 左 图 : 针对 各 组 数据 分 别 绘制 模型 拟 合 线 ” 右 图 : 外 推 的 线性 拟 合 线 


对 于 本 例 中 的 heightweight 数据 集 而 言 ，stat_smooth () 函数 默认 的 方法 〈 不 带 外 
推 的 LOESS 方法 ) 比 外 推 的 线性 预测 更 合理 ， 因 为 人 类 的 生长 过 程 并 非 线性 的 ， 且 
人 类 也 不 会 一 直 在 生长 。 


5.7 ”根据 已 有 模型 向 散 点 图 添加 拟 合 线 


问题 
对 数据 集 建立 回归 模型 之 后 ， 如 何 将 模型 对 应 的 拟 合 线 添加 到 散 点 图 上 ? 
方法 


常用 的 向 散 点 图 添加 模型 拟 合 线 的 方法 是 调用 stat_smooth () 函数 ， 这 在 5.6 节 中 已 
有 所 介绍 。 然 而 ， 有 时 候 我 们 想 要 建立 自己 的 模型 ， 再 将 模型 拟 合 线 添加 到 散 点 图 
上 ， 这 样 做 可 以 使 所 用 的 模型 与 图 中 所 见 保持 一 致 。 


本 例 中 ， 我 们 使 用 lm() 函数 建立 一 个 以 ageYear 为 预测 变量 对 heightIn 进行 预测 的 
模型 。 然 后 ， 调 用 predict () 函数 计算 预测 变量 ageYear 各 取 值 所 对 应 的 heightIn 
变量 的 预测 值 : 

library (gcookbook) # 为 了 使 用 数据 


model <- lm(heightIn ~ ageYear + I(ageYear"2), heightweight) 
model 


Call: 
ln(formula = heightIn ~ ageYear + I(ageYear’2), data = heightweight) 
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Coefficients: 
(Intercept) ageYear IT(ageYear^2) 
-10.3136 8.6673 -0.2478 


提 创建 一 个 包含 变量 ageYear 的 列 ， 并 对 其 进行 插值 

xmin <- min (heightweightSageYear) 

xmax <- max(heightweight$ageYear) 

predicted <- data.frame (ageYear=seq(xmin, xmax, length.out=100)) 





# 计算 变量 he: 的 预测 值 
predicted$heightIn <- predict (model, predicted) 





predicted 


ageYear heightIn 
11.5800 56.82624 
11.6398 57.00047 


17.4402 65.47875 
17.5000 65.47933 


现在 ， 我 们 可 以 将 数据 点 和 模型 预测 值 一 起 绘制 在 图 形 上 《〈 见 图 5-22); 
sp <- ggplot (heightweight, aes(x=ageYear, y=heightIn)) + 


geom point (colour=" ) 


sp + geom line(data=predicted, size=i) 











12 14 16 
ageYear 














图 5-22 左 图 : 基于 lm 对 象 的 二 次 预测 曲线 右 图 : 基于 线性 模型 (红线 ) 和 LOESS 模型 ( 蓝 
线 ) 的 拟 合 线 


讨论 
无 论 哪 种 模型 ， 只 要 有 对 应 的 predict () 方法 ， 则 其 都 可 用 来 绘制 拟 合 线 。 举 个 例子 : 
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1m() 函数 和 loess () 函数 对 应 的 predict () 方法 分 别 是 predict.1m() 和 predict. 
loess () 等 ， 因 此 ， 这 两 个 模型 都 可 以 用 来 绘制 模型 拟 合 线 。 


应 用 下 面 定义 的 predictvals() 函数 可 以 简化 向 散 点 图 添加 模型 拟 合 线 的 过 程 。 使 用 
时 ， 只 需 向 其 传递 一 个 模型 作为 参数 ， 该 函数 就 会 自动 查询 变量 名 、 预 测 变量 范围 、 
并 返回 一 个 包含 预测 变量 和 模型 预测 值 的 数据 框 。 将 该 数据 框 传递 给 geom_line () 函 
数 即 可 绘制 我 们 在 前 面 看 到 的 模型 拟 合 线 : 


# 根据 模型 和 变量 xvar 预测 变量 yvar 

## 仅 支持 单一 预测 变量 的 模型 

## xrange: X 抽 范围 ， 当 值 为 NULL 时 ， 等 于 模 到 对象 中 提取 的 x 轴 范 围 ， 当 设 定 为 包含 两 个 数字 的 
着 向 量 时 ， 两 个 数字 分 别 对 应 于 x 轴 范 围 的 上 下 早 

# sample:x 抽 上 包含 的 样本 数量 

关 ，,.: 可 传递 给 predict () 函数 的 其 他 参数 

predictvals <- function(model, xvar, yvar, xrange=NULL, samples=100, ,..) { 





























# 如 果 xrange 没有 输入 ， 则 从 模型 对 象 中 自动 提取 x 灿 范 围 作为 参数 
着 提取 xrange 参数 的 方法 视 模型 而 定 
if (is.null (xrange)) { 
if (any(class(model) sins c("lm","glm"))) 
xrange <- range(model$model[ [xvar]]) 
else if (any(class(model) ®in® "loess")) 
xrange <- range (model$x) 
} 


newdata <- data.frame(x = seq(xrange[i], xrange{[2], length.out = samples)) 
names (newdata) <- xvar 

newdata[[yvar]] <- predict (model, newdata = newdata, ) 

newdata 
} 


调用 lm() 函数 和 loess () 函数 对 数据 集 建 立 线性 模型 和 LOESS 模型 〔 见 图 5-22): 
modlinear <- lm(heightIn ~ ageYear, heightweight) 
modloess <- loess(heightIn ~ ageYear, heightweight) 


针对 两 个 模型 分 别 调用 predictvals() 函数 ， 并 将 得 到 的 结果 〈 数 据 框 ) 传递 给 geom_line (): 


lm_predicted <- predictvals(modlinear, 
loess_predicted <- predictvals (modloess, 








sp + geom line(data=lm predicted, colour= .5) + 


geom_line (data=loess_predicted, colour="blue", size=.$) 
对 于 具有 非 线性 连接 函数 的 glm 模型 ， 需 要 将 predictvals () 函数 的 参数 设 定 为 
type="response"。 这 样 做 的 原因 在 于 ， 默 认 情 况 下 该 函数 返回 的 预测 结果 是 基于 线 
性 项 的 ， 而 不 是 基于 响应 变量 (y) 的 。 
以 MASS 包 中 的 biopsy 数据 为 例 演示 一 下 上 述 过 程 。 与 5.6 节 中 一 样 ， 下 面 用 变量 
V1 来 预测 变量 class。Logistic 模型 对 应 的 值 须 是 介 于 0 到 1 之 间 的 数值 ， 这 里 变量 
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因而 ， 要 先 将 变量 class 的 取 值 转化 为 0 和 1。 
用 数据 






class 是 因子 型 变量 ， 
library (MASS) # 为 了 
b <- biopsy 


bs$classn[b$class: 
b$classn[b$class: 


下 面 ， 建 立 Logistic 回归 模型 : 

fitlogistic <- glm(classn ~ Vl, b, family=binomial) 
最 后 ， 绘 制 带 扰动 和 fitlogistic 线 的 散 点 图 。 通 过 指定 RGB 颜色 值 将 直线 设 定 为 
蓝 色 ， 同 时 ， 指 定 参数 size=1 使 线条 更 宽 ( 见 图 5-23)。 


# 获取 预测 值 
glm predicted <- predictvals (fitlogistic, "Vi", "classn"，type=" e") 





ggplot (b, aes (x=V1, y=classn)) + 


geom_point (position=position_jitter (width=. 3, height=.08), alpha=0.4, 
shape=’|, size=!i.5) + 
geom line (data=glm predicted, colour="$ F", size=i) 
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图 5-23 ”Logistic 模型 
5.8 添加 来 自 多 个 模型 的 拟 合 线 


问题 
对 数据 集 建立 了 回归 模型 之 后 ， 如 何 绘制 模型 对 应 的 拟 合 线 ? 


散 点 图 
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方法 
使 用 上 文 提 到 的 predictvals () 函数 和 来 自 plyr 包 的 dlply() 及 ldply() 函数 即 可 。 


根据 变量 sex 的 水 平 对 heightweight 数据 集 进行 分 组 ， 调 用 lm () 函数 对 每 组 数据 分 别 
建立 线性 模型 ， 并 将 模型 结果 存放 在 一 个 列表 内 。 随 后 ， 通 过 下 面 定义 的 make_model () 
函数 建立 模型 。 调 用 该 函数 时 ， 向 其 输入 一 个 数据 框 作为 参数 ， 该 函数 会 返回 一 个 Im 
对 象 。 也 可 以 根据 数据 集 自 定义 模型 : 

make model <- function(data) { 

lm(heightIn ~ ageYear, data) 

} 
有 了 上 面 的 函数 之 后 ， 可 以 调用 dlp1ly () 函数 分 别针 对 数据 集 的 各 个 子 集 建立 模型 。 
在 执行 过 程 中 ， 函 数 会 根据 分 组 变量 sex 将 数据 框 切 分 为 不 同 的 子 集 ， 并 对 各 个 子 集 
执行 make .model () 函数 。 本 例 中 ，heightweight 数据 集 被 切 分 为 男性 组 和 女性 组 ， 
make_model () 函数 分 别 对 两 个 组 的 数据 建立 模型 。 调 用 dlply () 函数 将 模型 结果 输出 
到 列表 中 ， 并 返回 列表 : 


library (gcookbook) 为 了 使 用 数据 
library (plyr) 
models <- dlply(heightweight, “sex", .fun = make model) 





加 











志 打印 出 两 个 lm 对 象 三 和 四 组 成 的 殉 表 
models 


$f 


Call: 
lm(formula = heightIn ~ ageYear, data = data) 


Coefficients: 

(Intercept) ageYear 
43.963 1.209 

$m 

Call: 


lm(formula = heightIn ~ ageYear, data = data) 


Coefficients: 
(Intercept) ageYear 
30.658 2.301 


attr(, "split_type") 

[1] "data.frane" 

attr(, "split labels") 
Sex 
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得 到 模型 对 象 之 后 ， 配 合 使 用 1dply () 函数 和 predictvals () 函数 即 可 获取 两 个 模型 
对 应 的 预测 值 。 


predvals <- ldply(models, ,fun=predictvals, xvar="ageYear", yvar="heightIn") 
predvals 条 


sex ageYear heightIn 
£ 11.58000 57.96250 
£ 11.63980 58.03478 
£ 11.69960 58.10707 


m 17.38040 70.64912 
m 17.44020 70.78671 
m 17.50000 70.92430 


绘制 带 预测 值 的 散 点 图 ( 见 图 5-24); 


ggplot (heightweight, aes(x=ageYear, y=heightIn, colour=sex)) + 
geom_point () + geom_line(data=predvals 


最 后 




















图 5-24 ” 左 图 : 基于 两 个 独立 的 lm 对 象 的 预测 值 ， 两 个 对 象 名 自 对 应 于 数据 的 一 个 子 集 右 
图 : 分 面 绘图 

讨论 

dlply() 函数 和 ldply() 函数 的 作用 是 切 分 数据 ， 对 各 个 部 分 执行 某 一 函数 ， 并 对 执 
行 结果 进行 重组 。 

在 前 面 的 代码 中 ， 每 组 数据 的 预测 值 对 应 的 x 轴 的 范围 与 每 组 数据 所 对 应 的 x 轴 的 范 
相同 ， 并 未 向 外 延伸 。 男 性 组 的 预测 值 终止 于 男性 组 中 年 龄 最 大 的 点 ， 女 性 组 的 预 
测 值 更 靠 右 ， 终 止 于 女性 组 中 年 龄 最 大 的 点 。 为 了 使 两 组 预测 线 对 应 的 x 轴 范 围 与 整 
个 数据 集 对 应 的 x 轴 范围 相同 ， 可 以 像 下 面 这 样 向 其 传递 一 个 xrange 参数 : 


predvals <- ldply (models, .fun=predictvals, xvar="ageYear", yvar="heightIn" 
xrange=range (heightweight$ageYear)) 
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接 下 来 的 绘图 操作 与 前 面 类 似 。 
ggplot (heightweight, aes(x-ageYear, y=-heightIn, colour=sex)) + 
geom point() + geom line(data=predvals) 
从 图 5-25 可 以 看 到 ， 男 性 组 的 模型 拟 合 线 延伸 到 了 女性 组 的 右边 界 。 谨 记 一 点 ， 外 推 
拟 合 线 并 非 总 是 适用 的 ， 其 适用 与 否 要 视 数 据 特性 及 模型 假设 而 定 。 

















图 5-25 ”将 每 组 预测 值 的 x 轴 范 围 外 推 至 整个 数据 集 对 应 的 x 轴 范 围 


5.9 向 散 点 图 添加 模型 系数 


问题 

如 何 向 图 形 添 加 模型 的 数值 信息 ? 

方法 

简单 的 文本 以 注释 形式 添加 到 图 形 上 面 即 可 。 下 面 的 例子 中 ， 我 们 会 建立 一 个 线性 模型 ， 

并 调用 5.7 节 中 定义 的 predictval () 函数 创建 一 条 预测 线 。 最 后 ， 向 图 形 添加 注释 。 
library (gcookbook) 所 为 了 使 用 数据 


model <- lm(heightIn ~ ageYear, heightweight) 
summary (model) 


Call: 
lm(formula = heightIn ~ ageYear, data = heightweight) 


Residuals: 
Min 10 Median 30 Max 
-8.3517 -1.9006 0.1378 1.9071 8.3371 


Coefficients; 
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Estimate Std. Error t value Pr(>|t|) 
(Intercept) 37.4356 1.8281 20.48 <2e-16 *** 
ageYear 1.7483 0.1329 13.15 <2e-16 *** 


Signif. codes: 0 '***' 0.001 "ww 0.01 '*' 0.05 .0.11 


Residual standard error: 2.989 on 234 degrees of freedom 
Multiple R-squared: 0.4249, Adjusted R-squared: 0.4225 
F-statistic: 172.9 on 1 and 234 DF, p-value: < 2.2e-16 


上 面 的 结果 表明 模型 的 产值 是 0.4249。 我 们 创建 一 个 图 形 ， 并 调用 annotate () 函数 
向 其 手 文本 ( 见 图 5-26): 





# 到 

pred <- predictvals (model, | 了 

sp <- ggplot (heightweight，aes (x=ageYear, y=heightIn)) + geom point() + 
geom_line (data=pred 








70- 














图 5-26 左 图 : 纯 文本 右 图 : 数学 公式 
如 果 不 想 使 用 纯 文本 字符 串 当 注释 的 话 ， 可 以 通过 设置 parse=TRUE 调用 R 的 数学 表 
达 式 语法 来 输入 公式 。 

sp + annotatel ", label=" .42", parse = TRUE, x=1t,5, y= ) 
讨论 
ggplot2 中 的 文本 对 象 不 能 直接 以 表达 式 对 象 作 为 输入 ， 其 参数 通常 是 一 个 字符 串 ， 接 
收 字符 串 后， 通过 parse (text="a + b") 函数 将 其 转化 为 公式 。 
使 用 数学 公式 作为 注释 时 ， 必 须 使 用 正确 的 语法 才能 保证 系统 输出 一 个 合法 的 R 表达 式 对 
象 。 把 公式 封装 在 expression () 内 部 ， 检 验 其 输出 结果 可 以 辅助 判断 R 表达 式 的 有 效 性 
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(确保 公式 两 边 没 有 引号 )。 本 例 中 一 是 公式 中 表达 等 号 的 合法 字符 ， 而 = 则 是 非法 字符 。 


expression(r”> 一 ) 下 合法 公式 

expression(r^2 一 0.42) 

expression(r^2 = 0.32) 间 非法 公式 

Error: unexpected '=' in "expression(r^2 =" 
还 可 以 自动 提取 模型 对 象 的 值 并 创建 一 个 引用 这 些 值 的 公式 。 在 接 下 来 的 例子 中 ,我 
们 创建 一 个 字符 串 ， 对 其 进行 解析 后 ， 会 返回 一 个 合法 的 公式 : 


eqn <- as.character (as.expression( 
substitute (italic(ly) == a + b * italic(x) * "," ~~ italic(r)*2 ~ "=" ~ r2, 
list(a = format (coef (model) [1], digits=3), 
b = format (coef (model) [2], digits=3), 
r2 = format (summary (model)$r.squared, digits=?) 
))) 
eqn 


"italic(y) 一 \"37.4\" + \"1.75\" * italic(x) * \",\" ~ ~italic(r)^2 ~ \"=\" ~ 
\"0.42\"" 


parse(text=eqn) ## 解析 并 返回 一 个 表达 式 


expression (italic(y) 一 "37.4" + "1.75" * italic(x) * "," ~ ~italic(r)^2 ~ "=" ~ 
"0.42") 


有 了 字符 串 表 达 式 之 后 ， 就 可 以 将 其 添加 到 图 形 上 了 。 下 面 设置 x=Inf 和 y=-Inf 将 公式 放 
置 于 图 形 的 右 下 角 ， 同 时 对 其 位 置 进行 上 下 和 左右 调整 ， 使 其 位 于 绘图 区 域内 〈 见 图 527): 


sp + annotate("ext"，1l1abel=eqn，parse=TROE，Xx=Inf，yY=-Inf，hjust=1.1，vjust=-.5) 

















5-27 ”自动 生成 公式 的 散 点 图 
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另 见 
R 中 数学 表达 式 的 语法 可 能 需要 花 一 些 时 间 去 学 习 ， 更 多 信息 请 参见 7.2 节 。 


5.10 ”向 散 点 图 添加 边际 地 毯 
问题 


如 何 向 散 点 图 添加 边际 地 毯 〔〈Marginal rugs)? 


方法 

调用 geom_rug() 函数 即 可 。 下 面 以 faithful 数据 集 为 例 ( 见 图 5-28) ， 该 数据 集 包 
含 两 列 关 于 “ 老 忠实 喷泉 ”的 信息 : 其 中 ， 一 列 是 变量 eruptions， 记 录 的 是 喷泉 每 
次 喷发 的 时 长 : 另 一 列 是 waiting， 记 录 的 是 喷泉 在 两 次 喷发 之 间 的 时 间 间 隔 ; 


ggplot (faithful, aes(x=eruptions, y=waiting)) + geom point() + geom rug{) 








rth 
15 20 25 30 35 40 45 50 


eruptions 











图 5-28 ”添加 边际 地 税 的 散 点 图 

讨论 

边际 地 毯 图 本 质 上 是 一 个 一 维 的 散 点 图 ， 它 可 被 用 于 展示 每 个 坐标 轴 上 数据 的 分 布 情况 。 
对 于 本 例 中 的 数据 集 ， 边 际 地 毯 传递 的 信息 量 十 分 有 限 。 因 为 变量 waiting 的 最 小 刻 
度 是 分 钟 ， 因 此 ， 图 中 相应 的 边际 地 毯 线 重 麦 严重 。 通 过 向 边际 地 毯 线 的 位 置 坐标 添 
加 扰动 并 设 定 si ze 减 小 线 宽 可 以 减轻 边际 地 毯 线 的 重 登 程度 〈 见 图 5-29)。 上 述 操作 
有 助 于 看 清 数据 的 分 布 情况 : 
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ggplot (faithful, aes(x=eruptions 
geom_rug (position= 


aiting)) + geom point() + 
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图 5-29 ”线形 更 细 、 添 加 扰动 的 边际 地 秘 


另 见 
更 多 关于 图 形 重 到 的 内 容 ， 可 参见 5.5 节 。 


5.11 向 散 点 图 添加 标签 
问题 


如 何 向 散 点 图 添加 标签 ? 

方法 

调用 annotate() 函数 或 者 geom_text () 函数 可 以 为 一 个 或 几 个 数据 上 
以 countries 数据 集 为 例 ， 对 各 国医 疗 保健 支出 与 每 千 新 生 儿 的 婴儿 死亡 
进行 可 视 化 。 为 了 便于 操作 ， 选 取 人 均 支 出 大 于 2000 美元 的 国家 的 数据 子 集 进行 分 析 : 


library (gcookbook) # 
subset (countries, Yea 












& healthexp>2000) 


Name Code Year GDP laborrate healthexp infmortality 
Andorra AND 2009 NA NA 3089.636 
Australia AUS 2009 42130.82 65.2 3867.429 4.2 
Austria AUT 2009 45555.43 60.4 5037.311 3.6 
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United Kingdom GBR 2009 35163.41 62.2 3285.050 4.7 
United States USA 2009 45744.56 65.0 7410.163 6.6 
先 将 基本 散 点 图 对 象 保存 在 sp 中 ， 再 向 其 添加 其 他 元 素 。 要 手动 添加 注释 ， 可 调用 
annotate() 函数 ， 此 时 ， 需 要 指定 标签 坐标 和 标签 文本 〈 见 图 5-30 左 图 )。 可 能 要 尝 
试 多 次 才能 将 注释 调整 到 合适 的 位 置 。 


sp <- ggplot (subset (countries, Year==2009 5 healthexp>2000), 
aes (x=healthexp, y=infmortality)) + 
geom_point () 


sp + annotate("text", x=$4350, y=5 人 label="Canada") + 


| 


annotate ("text", x=7400, y=6.9, label="USA") 












a 
了 ee 


ee ee 











图 5-30 左 图 : 手动 设置 数据 标签 的 散 点 图 “ 右 图 : 缩小 字号 、 自 动 添加 数据 标签 的 散 点 图 


要 根据 数据 集 自动 向 散 点 图 添加 数据 标签 〈 见 图 5-30 右 图 ) ， 可 以 使 用 geom_text () 
函数 ， 此 时 ， 只 需 映 射 一 个 因子 型 或 者 字符 串 型 的 向 量 给 标签 (1abe1) 属性 。 本 例 
中 ， 我 们 把 变量 Name 映射 给 1abe1 属性 ， 同 时 为 了 避免 数据 点 过 于 拥挤 ， 我 们 使 用 
略 小 一 点 的 字号 。 默 认 的 标签 size 属性 为 5， 这 个 数值 并 不 与 字号 直接 对 应 。 


sp + geom_text (aes (label=Name), size=4) 
讨论 
系统 自动 放置 注释 时 会 将 其 中 心 置 于 x 坐标 和 >y 坐标 的 位 置 。 不 过 ， 我 们 可 以 对 文本 
位 置 进行 上 下 或 者 左右 调整 ， 或 者 两 者 兼 做 。 


设 定 vjust=0 时 ， 标 签 文本 的 基线 会 与 数据 点 对 齐 〈 见 图 5-31 左 图 ); 设 定 vjust=1 
时 ， 标 签 文本 的 顶部 会 与 数据 点 对 齐 。 但 有 时 这 样 还 不 够 ， 我 们 还 可 以 通过 增加 或 者 
减少 vjust 参数 的 值 来 调 高 或 者 调 低 文本 标签 的 位 置 ， 也 可 以 通过 对 y 的 映射 增加 或 
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减 小 一 个 值得 到 相同 的 效果 《〈 见 图 5-31 右 图 )。 


sp + geom text (aes (label=Name), size=4, vjust=)) 


## 增加 一 些 y 的 取 什 
sp + geom text (aes (y=infmortality+.1, label=Name), size=4, viust=0) 

















图 5-31 左 图 : vjust=0 的 散 点 图 右 图 : 向 y 轴 坐标 增加 一 些 数值 


有 时 候 ， 有 必要 根据 数据 点 的 位 置 令 注 释 左 对 齐 或 右 对 齐 。 要 左 对 齐 ， 可 设置 
hjust=0〈 见 图 5-32 左 图 )， 要 右 对 齐 ， 可 设 定 hjust=1。 与 调整 vjust 的 情形 类 似 ， 
图 中 的 标签 会 与 数据 点 有 所 重 登 。 然 而 ， 这 时 候 ， 我 们 最 好 不 要 通过 增加 或 者 减少 
hjust 的 值 对 此 进行 修正 ， 因 为 调整 hjust 的 值 时 ， 系 统 会 按照 文本 标签 长 度 的 一 定 
比例 来 移动 文本 标签 的 位 置 ， 这 时 候 ， 较 长 的 文本 标签 会 比 短文 本 标签 移动 的 位 置 更 
大 。 此 时 ， 最 好 将 hjust 设 定 为 0 或 者 1， 然 后 ， 通 过 对 x 增加 或 者 减 去 一 个 值 来 调 
整 文本 标签 的 位 置 〈 见 图 5-32 右 图 ): 


sp + geom text (aes (label=Name), size=4, hjust=)) 


sp + geom_text (aes (x=healthexp+0), label=Name), size=4, hjust=0) 


be 

如 果 绘图 时 用 的 是 对 数 坐 标 轴 ， 要 想 将 文本 标签 移动 同样 的 位 置 ， 就 不 能 通过 增 
加 x 或 y 的 数值 来 实现 了 。 此 时 需要 邻 X 或 者 y 乘 以 一 个 数值 才 行 。 
如 果 只 想 给 为 数 不 多 的 几 个 点 添加 标签 ， 但 希望 R 自动 设 定 标签 位 置 的 话 ， 可 以 给 数 
据 框 增加 一 个 只 包含 拟 使 用 的 标签 的 新 列 。 一 个 可 行 方案 是 : 首先 ， 将 所 用 数据 复制 
一 个 副本 ， 并 将 列 Name 复制 为 Namel: 


cdat <- subset (countries, Year==2009 5 healthexp>2000) 


cdatSNamel <- cdat$Name 
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图 5-32 左 图 : hjust=0 的 散 点 图 右 图 : 向 x 添加 一 个 值 

接 下 来 ， 用 $in$ 运算 符 找 出 绘图 时 希望 保有 的 标签 所 处 的 位 置 。 本 操作 将 返回 一 个 
逻辑 向 量 ， 该 向 量 标识 了 cdat$Namel 中 哪些 元 素 出 现在 第 二 个 向 量 中 ， 其 中 第 二 个 
向 量 指定 的 是 我 们 希望 标示 出 来 的 国家 的 名 字 : 


idx <- cdat$Nanel $in¥ cl"Canada", "Ireland", "United Kingdon", "United States", 
w Zealand", "Iceland", "Japan", "Luxembourg", 
"Netherlands", "Switzerland") 





idx 
[1] FALSE FALSE FALSE FALSE TRUE FALSE FALSE FALSE FALSE FALSE TRUE TRUE 
[13] FALSE TRUE TRUE FALSE TRUE TRUE FALSE FALSE FALSE FALSE FALSE FALSE 
[25] TRUE TRUE TRUE 
根据 上 面 的 逻辑 向 量 用 NA 重 写 变量 Namel 中 的 其 他 取 值 : 
cdatSNamel [1idx] <- NA 
得 到 的 结果 如 下 : 
cdat 
Name Code Year GDP laborrate healthexp infmortality Namel 
Andorra AND 2009 NA NA 3089.636 3 <NR> 
Australia AUS 2009 42130.82 65.2 3867.429 4.2 <NR> 
‘switzerland CHE 2009 63524.65 66.9 7140.729 4.1 Switzerland 
United Kingdom GBR 2009 35163.41 62.2 3285.050 4.7 United Kingdom 
United States USA 2009 45744.56 65.0 7410.163 6.6 United States 


现在 ， 可 以 绘制 图 形 了 ( 见 图 5-33)。 这 次 ， 增 大 x 轴 的 范围 使 得 文本 标签 可 以 漂亮 
地 展示 出 来 : 
ggplot (cdat, aes(x=healthexp, y=infmortality)) + 
geom point() + 


geom text (aes (x=healthexp+100, label=Name1l), size=4, hjust=0) 
xlim(2000,16000) 
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图 5-33 ” 选 定 标签 、 扩 展 * 轴 的 散 点 图 

如 果 一 些 个 别 的 位 置 需要 调整 ， 我 们 有 两 个 选择 : 第 一 个 选择 是 复制 x 轴 坐 标 和 y 轴 
坐标 对 应 的 列 ， 修 改 它 们 的 数值 并 以 此 调整 文本 的 位 置 。 当 然 ， 绘 制 数据 点 所 用 的 坐 
标 必 须 是 原始 的 数值 ! 另 一 个 选择 是 把 图 形 输出 为 矢量 格式 ， 比 如 PDF 或 者 SVG ( 参 
见 14.1 节 和 14.2 节 的 内 容 )， 再 用 Illustrator 或 者 Inkscape 软件 对 其 进行 编辑 。 


另 见 


更 多 关于 控制 文本 样式 的 内 容 ， 可 参见 9.2 节 。 如 果 想 手动 编辑 PDF 或 者 SVG 文件 ， 
可 参见 14.4 节 的 内 容 。 


5.12 ”绘制 气泡 图 


问题 

如 何 绘制 气泡 图 ， 并 令 点 的 面积 正比 于 变量 值 ? 

方法 

调用 geom_point () 和 scale_size_area() 函数 即 可 绘制 气泡 图 。 下 面 以 countries 


数据 集 的 子 集 为 例 : 
library (gcookbook) # 为 了 使 用 数据 














cdat <- subset (countries, Year==2009 6 
Name Sint c("Canada", "Ireland", "United Kingdom", "United States", 
"New Zealand", "Iceland", "Japan", "Luxembourg" 
"Netherlands", "switzerland") 





cdat 
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Name Code Year GDP laborrate healthexp Woe 


1733 Canada CAN 2009 39599.04 67.8 4379.761 

4436 Iceland ISL 2009 37972.24 77.5 3130.391 1 
4691 Ireland IRL 2009 49737.93 63.6 4951.845 3.4 
4946 Japan JPN 2009 39456.44 59.5 3321.466 2.4 
5864 Luxembourg LUX 2009 106252.24 55.5 8182.855 2.2 
7088 Netherlands NLD 2009 48068.35 66.1 5163.740 3.8 
7190 New Zealand NZL 2009 29352.45 68.6 2633.625 4.9 
9587 Switzerland CHE 2009 63524.65 66.9 7140.729 4.1 
10454 United Kingdom GBR 2009 35163.41 62.2 3285.050 4.7 
10505 United States USA 2009 45744.56 65.0 7410.163 6.6 


如 果 只 是 将 变量 6DP 映射 给 size 属性 ， 则 GDP 的 值 被 映射 给 了 点 的 半径 〈 见 图 5-34 
左 图 )， 这 并 不 是 我 们 想 要 的 结果 ; 此 外 ， 当 变量 值 增加 一 倍 时 ， 对 应 的 点 的 面积 会 
变 为 原来 的 四 倍 ， 因 此 ， 这 种 结果 会 对 人 们 理解 数据 产生 误导 。 我 们 更 想 将 6DP 映射 
给 点 的 面积 ， 可 以 调用 scale_size_area () 来 完成 这 一 操作 ( 见 图 5-34 右 图 )， 


Pp <- ggplot (cdat，aes (X=healthexp，y=infmortality，size=GDP)) + 
geom_point (shape=21, colour="black", fill="cor k") 














六 将 GDP 映射 给 半径 (scale_size_continuous 的 默认 值 ) 
p 


# 将 GDP 号 射 给 面积 ， 得 到 一 个 咯 大 的 加 因 
p + scale_size area(max_size= 
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图 5-34” 左 图 : 把 变量 值 映射 给 半径 的 气泡 图 “ 右 图 : 把 变量 值 映 射 给 面积 的 气泡 图 

讨论 

本 例 中 的 气泡 图 实际 上 还 是 散 点 图 ， 但 气泡 图 也 有 其 他 用 法 。 比 如 ， 当 x 轴 和 > 轴 皆 
为 分 类 变量 时 ， 气 泡 图 可 以 用 来 表示 网 格 点 上 的 变量 值 ， 如 图 5-35 所 示 : 


让 对 男性 组 和 女性 组 求 和 
hec <- HairEyeColorl,,"Male"] + HairEyeColor[,,"Female"] 


散 点 图 93 


天 转化 为 长 格式 (long format) 
library (reshape2) 
hec <- melt (hec, value.name="count") 


ggplot (hec, aes(x=Eye, y=Hair)) + 
geom_point (aes (size=count), shape=21, colour="black", fill="cornsilk") + 
scale size area(max size=2), guide=FALSE) + 
geom text (aes (y=as.numeric (Hair)-sqrt (count) /22, label=count), vijust=i, 





colour="grey60", size=4) 
l 
轩 
DO 
一 全 
29 
重 饼 “这 有 
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图 5-35 ”坐标 轴 对 应 于 分 类 变量 的 气泡 图 及 文本 标签 


本 例 中 ， 我 们 使 用 了 一 些小 技巧 来 将 文本 标签 置 于 圆圈 正 下 方 。 首 先 ， 设 定 vjust=1， 
将 文本 标签 项 端 与 数据 点 的 y 轴 对 应 。 接 下 来 ， 调 整 y 坐标 ， 使 其 刚好 位 于 每 个 贺 
圈 的 底部 。 这 一 过 程 涉及 一 些 计算 ， 提取 Hair 变量 的 数值 ， 并 将 其 减 去 一 个 与 变 
量 count 有 关 的 值 。 事 实 上 ， 这 需要 计算 count 变量 的 平方 根 ， 因 为 圆圈 的 半径 跟 
count 变量 的 平方 根 线性 相关 。 这 里 的 除数 是 通过 试 错 得 出 的 〈 本 例 中 等 于 22)， 这 
个 值 取决 于 具体 的 数据 值 、 圆 圈 半 径 及 文本 大 小 。 


圆圈 下 面 的 文本 颜色 是 灰色 的 。 之 所 以 这 么 做 是 为 了 削弱 文本 的 突出 性 ， 避 免 影 响 圆 
圈 的 展示 ， 但 同时 如 果 想 知道 圆圈 对 应 的 具体 数值 ， 文 本 也 能 够 在 图 中 观察 得 出 。 


另 见 


为 圆圈 添加 标签 的 内 容 可 参见 5.11 节 和 7.1 节 。 在 散 点 图 中 将 变量 映射 给 其 他 图 形 属 
性 的 方法 可 参见 5.4 节 。 


5.13 ”绘制 散 点 图 矩阵 


问题 
如 何 绘制 散 点 图 矩阵 ? 
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方法 
散 点 图 矩阵 是 一 种 对 多 个 变量 两 两 之 问 关系 进行 可 视 化 的 有 效 方法 。 调 用 R 基础 绘图 
系统 中 的 pairs () 函数 可 以 绘制 散 点 图 矩阵 。 

这 里 以 countries 数据 集 的 子 集 为 例 。 我 们 从 countries 数据 集中 选取 出 2009 年 的 
数据 且 只 保留 几 个 相关 列 : 


library (gcookbook) # 





s, Ye: ， 
(Name, GDP, laborrate, healthexp, infmortality)) 






c2009 
Name GDP laborrate healthexp infmortality 
Afghanistan NA 59.8 50.88597 103.2 
Albania 3772.6047 59.5 264.60406 17.2 
Algeria 4022.1989 58.5 267.94653 32.0 
Zambia 1006.3882 69.2 47.05637 71.5 
Zimbabwe 467.8534 66.8 NA 52.2 


我 们 用 第 2-5 列 数据 绘制 散 点 图 矩阵 〈 见 图 5-36) 一 一 对 变量 Name 绘图 的 意义 不 大 ， 
而 且 会 出 现 奇怪 的 结果 : 


pairs(c2009[,2:5]) 
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图 5-36 ”和 散 点 图 矩阵 
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讨论 
此 处 ， 我 们 没有 使 用 ggplot2 是 因为 它 不 能 绘制 散 点 图 矩阵 〈 至 少 绘制 的 效果 不 佳 )。 


上 述 绘图 过 程 中 也 可 以 使 用 自 定义 的 面板 函数 。 我 们 定义 一 个 panel . cor 函数 来 展示 
变量 两 两 之 间 的 相关 系数 以 代替 默认 的 散 点 图 。 相 关系 数 较 大 的 位 置 将 对 应 于 较 大 的 
字体 。 现 在 暂时 不 需要 关心 函数 的 细节 一 一 先 把 代码 粘贴 到 R 会 话 或 者 脚本 中 : 


panel.cor <- function(x, y, digits=?, prefix="", cex.cor, ) { 
Usr <- par("usr") 
on.exit (par (usr)) 
parlusr = c(f， 1, 0, 7)) 
r <- abs(cor(x, y, use="complete.obs")) 
txt <- format (cl(r, ), digits=digits) [1] 
txt <- paste(prefix, txt, sep="") 
if(missing (cex.cor)) cex.cor <- /strwidth(txt) 
text( ，， » txt, cex = cex.cor * (1 + 7r) /2) 


} 
为 了 在 面板 的 对 角 线 上 展示 各 个 变量 的 直方 图 ， 我 们 定义 panel .hist 函数 : 


panel.hist <- function(x, )}i{ 
usr <- par("usr") 
on.exit (par (usr)) 
parlusr = clusr[1: ], 0, 1.5) ) 
h <- hist(x, plot = FALSE) 
breaks <- hSbreaks 
nB <- length(breaks) 
y <- h$counts 
y <- y/max(y) 
rect (breaks[-nB], 0°, breaks[-i], y, col="white”, ) 
， 


上 面 的 函数 都 取 自 于 pairs 函数 的 帮助 页 面 ， 为 方便 起 见 ， 也 可 以 打开 pairs 函 
数 的 帮助 页 面 ， 复 制 、 粘 贴 相 关 代码 。 不 过 ， 我 们 对 这 一 版 本 的 panel. cor 函数 
的 最 后 一 行进 行 了 微小 的 修正 ， 以 使 得 散 点 矩阵 图 中 的 字体 差异 不 像 原 始 代码 那 
么 大 。 


定义 了 这 些 函 数 之 后 ， 我 们 可 以 调用 它们 来 绘制 散 点 图 矩阵 。 令 pairs () 函数 在 面板 
的 上 三 角 执行 panel.cor 函数 :在 面板 的 对 角 线 执行 panel.hist 函数 。 


绘图 时 也 额外 增加 了 一 点 东西 ， 在 面板 的 下 三 角 执行 panel .smooth 函数 。 该 函数 将 
在 散 点 图 矩阵 的 下 三 角 绘 制 散 点 图 ， 并 添加 一 个 LOWESS 平滑 曲线 ， 如 图 5-37 所 示 
(5.6 节 中 介绍 了 LOESS， 此 处 的 LOWESS 与 LOESS 略 有 不 同 ， 不 过 ， 对 于 这 种 初步 
的 探索 可 视 化 方法 而 言 ， 两 者 的 区 别 并 不 重要 ): 

pairs(c2009[, 2:3], upper.panel = panel.cor, 


diag.panel = panel.hist, 
lower.panel = panel. smooth) 





96 第 5 章 





















































0.89|| 0.44 ti 
8 0.14 0.43 
3 RR 
healthexp 呈 
0.46 [8 
I> E 
We op intmortality 
8 人 内 
s yp 
四 8 











图 5-37 ”上 三 角 是 相关 系数 ， 下 三 角 是 平滑 曲线 ， 对 角 线 是 直方 图 的 散 点 图 矩阵 


也 许 ， 我 们 会 希望 用 线性 模型 代替 LOWESS 模型 ，panel .lm 函数 可 以 完成 该 操作 (与 
前 面 的 面板 函数 不 同 ， 这 里 的 函数 不 在 pairs 函数 的 帮助 页 面 中 ); 
panel.lm <- function (x, y, col = par("col"), bg = NA，pch = par("peh"), 
= !, col.smooth = 2 
points(x, y, pch = pct = col, bg = bg, cex = cex) 
abline(stats: :lmly ~ x), col = col.smooth, .,.) 
1 
这 次 ， 系 统 默认 的 线条 颜色 不 再 是 红色 ， 而 是 黑色 。 调 用 函数 pairs () 时 (与 函数 
panel .smooth 配合 使 用 ) 设 定 col .smooth 参数 可 以 对 线条 颜色 进行 修改 。 


为 了 便于 辨认 数据 点 ， 我 们 在 图 中 使 用 更 小 一 些 的 点 〈 见 图 5-38)。 该 操作 可 以 通过 
设 定 pch="." 来 完 


pairs(c2009[，:: 








，pch= 
upper.panel = panel.cor, 
diag.panel = panel.hist 
lower.panel = panel.1! 

cex 参数 可 以 控制 图 中 点 的 大 小 。cex 参数 的 默认 值 是 1， 其 值 越 大 ， 相 应 的 数据 点 

也 越 大 ， 反 之 亦 然 。 如 果 参 数 cex 小 于 0.5， 图 形 输出 为 PDF 文件 时 可 能 无 法 很 好 地 

演 染 。 











) 
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图 5-38 ”使 用 更 小 的 数据 点 及 线性 拟 合 线 的 散 点 图 矩阵 


更 多 
关于 创建 相关 系数 矩阵 的 内 容 ， 可 参见 13.1 节 。 
GGally 包 中 的 ggpairs () 函数 也 可 以 绘制 散 点 图 矩阵 。 
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第 6 章 


描述 数据 分 布 


本 章 将 探寻 一 些 对 数据 分 布 进行 可 视 化 的 方法 
6.1 绘制 简单 直方 图 

问题 

如 何 绘制 直方 图 ? 

方法 


运行 geom_histogram() 函数 并 映射 一 个 连续 型 变量 到 参数 x〈 见 图 6-1); 





ygplot (faithful, aes(x=waiting)) + geom_histogram() 


count 


图 6-1 简单 直方 图 
讨论 
ram() 函数 只 需要 数据 框 的 其 中 一 列 或 者 一 个 单独 的 数据 向 量 作为 参 
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数 。 以 faithful 数据 集 为 例 ， 该 数据 集 包 含 了 两 列 描述 老 忠实 喷泉 的 信息 : 第 一 列 
eruptions， 描 述 老 忠 实 喷泉 每 次 喷发 的 时 长 ; 第 二 列 waiting， 描 述 两 次 喷发 之 间 的 
间隔 。 下 面 仅 以 列 waiting 为 例 : 


faithful 
eruptions waiting 
3.600 79 
1.800 54 
3.333 74 


如 果 想 快速 地 看 一 下 未 包含 在 数据 框 中 的 数据 的 直方 图 ， 可 以 在 运行 上 述 命令 时 ， 将 
数据 框 参数 设 定 为 NULL， 同 时 ， 向 ggplot () 函数 传递 一 个 向 量 作为 参数 。 下 面 的 代 
码 与 之 前 的 运行 结果 相同 : 


# 将 变量 值 保存 为 一 个 基本 向 量 
Ww <-faithfulSwaiting 


ggplot (NULL, aes(x=w)) + geom histogram() 


默认 情况 下 ， 数 据 将 被 切 分 为 30 组 ， 这 样 分 组 可 能 太 过 精细 ， 也 可 能 太 过 粗糙 ， 这 取决 
于 数据 的 实际 情况 。 我 们 可 以 通过 组 距 (binwidth) 参数 来 调整 数据 的 分 组 数目 ， 或 者 将 
数据 切 分 为 指定 的 分 组 数目 。 直 方 图 默认 的 填充 色 是 黑色 且 没有 边框 线 ， 这 使 得 我 们 难 
以 看 清 各 个 条 形 对 应 的 变量 值 ， 因 此 ， 可 以 调整 一 下 直方 图 的 颜色 设置 ， 如 图 6-2 所 示 : 


## 设 定 组 距 为 5 
ggplot (faithful, aes(x=waiting)) + 
geom histogram(binwidth=®, fill="white", colour="black") 


并 将 x 的 取 值 切 分 为 15 组 
binsize <- diff (range (faithful$waiting) )/ 
ggplot (faithful, aes(x=waiting)) + 

geom histogram (binwidth=binsize, fill="wh 









加 








图 6-2 左 图 : 组 距 为 5， 且 修改 填充 色 的 直方 图 右 图 : 分 组 数 为 15 的 直方 图 

有 时 ， 直 方 图 的 外 观 会 非常 依赖 于 组 距 及 组 边界 。 图 6-3 中 ， 我 们 将 组 距 设 定 为 8。 
同时 设 定 分 组 原点 (origin) 参数 令 左 图 的 组 边界 分 别 位 于 31、39、47 等 ; 右 图 中 ， 
对 origin 参数 增加 4， 令 组 边界 分 别 位 于 35、43、51 等 : 

h <- ggplot (faithful，aes (x=waiting)) 时 将 基本 绘图 结果 存 为 变量 以 便于 重 奥 使 用 
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e", colour="black", origin=3)) 





h + geom histogram(binwidth=, fill 


te", colour="black", origin=35) 





h + geom histogram(binwidth=6, 
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图 6-3 ”分 组 原点 (origin ) 对 应 于 31 和 35 时 的 直方 图 





因此 ， 绘 制图 形 时 ， 最 好 尝试 一 下 不 同 的 分 组 数目 和 分 组 边界 。 


当 数 据 集 包含 离散 型 数据 时 ， 直 方 图 的 非 对 称 性 不 可 忽视 。 数 据 分 组 时 ， 各 分 组 


左 闭 右 开 。 比 如 ， 当 分 组 边界 为 1、2、3 等 时 ， 对 应 的 分 组 区 间 为 [1,2)、[2,3)、 


两 图 对 应 的 分 组 数目 相同 ， 但 绘图 结果 差异 很 大 。 本 例 中 的 的 faithful 数据 集 共 包 
含 272 个 观测 值 ， 数 据 量 并 不 算 少 ， 当 数据 量 较 小 时 ， 对 分 组 边界 的 影响 将 会 更 大 。 


区 间 
3,4) 





等 。 换 言 之 ， 第 一 个 分 组 区 间 包 含 1， 但 不 包含 2， 第 二 个 分 组 区 间 包 含 2， 但 不 包含 3。 
运行 代码 geom_bar (stat="bin") 也 能 得 到 相同 的 结果 ， 不 过 ，geom_histogram() 函 


数 的 操作 过 程 更 易于 解释 。 
另 见 


绘制 多 个 数据 对 应 的 分 布 时 ， 频 数 多 边 形 〈frequency polygon) 是 一 个 更 佳 的 方案 ， 


因为 ， 它 避免 了 各 个 条 形 之 间 相 互 干扰 。 相 关内 容 参 见 6.5 节 。 
6.2 ”基于 分 组 数据 绘制 分 组 直方 图 
问题 

如 何 绘制 多 组 数据 的 直方 图 ? 

方法 

运行 geom_histogram() 函数 并 使 用 分 面 绘 图 即 可 ， 如 图 6-4 所 示 : 


library (MASS) # 为 





使 用 smoke 作为 
ggplot (birthwt, aes(x=bwt)) + geom histogram(fill="white",colour="black")+ 
facet_grid(smoke ~ .) 
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bwt 











图 6-4 左 图 : 分 面 数目 为 2 的 直方 图 右 图 : 修改 分 面 标签 的 直方 图 

讨论 

绘制 上 图 时 ， 要 求 所 有 用 到 的 数据 都 包含 在 一 个 数据 框 里 ， 且 数据 框 其 中 一 列 是 可 用 
于 分 组 的 分 类 变量 。 

这 里 以 birthwt 数据 集 为 例 。 该 数据 集 包含 的 是 关于 婴儿 出 生体 重 及 一 系列 导致 出 生 
体重 过 低 的 危险 因子 的 数据 : 


birthwt 


0 19 182 2 0 001 
0 33 155 3 0 000 32551 
0 20 105 1 1 000 


分 面 绘图 有 一 个 问题 ， 即 分 面 标签 只 有 0 和 1， 且 没 有 指明 这 个 标签 是 变量 smoke 的 
取 值 。 想 要 修改 标签 ， 我 们 需要 修改 因子 水 平 的 名 称 。 首 先 列 出 现 有 的 因子 水 平 ， 然 
后 ， 依 照相 同 的 顺序 向 它们 赋予 新 的 名 字 : 

birthwtl <- birthwt # 复制 一 个 数据 副本 


# 将 smoke 转化 为 因子 
birthwt1$smoke <- factor (birthwt1$smoke) 
levels (birthwt1$smoke) 


nOnnl" 


library (plyr) # 为 了 使 用 revalue() 函数 
birthwtl$smoke <- revalue (birthwtl$smoke, c("0"="No Smoke", "1"="Smoke")) 


重新 绘图 ， 图 形 中 为 新 的 分 面 标签 ( 见 图 6-4 右 图 )。 


ggplot (birthwtl, aes(x=bwt)) + geom histogram(fill="white", colour="black") + 
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facet grid(smoke ~ .) 


分 面 绘图 时 ， 各 分 面 对 应 的 y 轴 标 度 是 相同 的 。 当 各 组 数据 包含 的 样本 数目 不 同时 ， 
可 能 会 难以 比较 各 组 数据 的 分 布 形 状 。 我 们 可 以 看 看 按照 race 对 出 生体 重 进行 分 红 
并 分 面 绘 图 的 结果 ( 见 图 6-5 左 图 ): 
ggplot (birthwt, aes(x=bwt)) + geom histogram(fill="white", colour="black") + 
facet grid(race ~ .) 
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图 6-5 左 图 : 坐标 轴 对 应 于 默认 固定 标 度 的 直方 图 右 图 : 令 scales="free" 的 直方 图 


设置 参数 scales="free" 可 以 单独 设 定 各 个 分 面 的 了 轴 标 度 。 注 意 : 这 种 设置 只 
适用 于 y 轴 标 度 ，x 轴 的 标 度 仍 是 固定 的 ， 因 为 各 个 分 面 的 直方 图 是 依照 x 轴 进行 
对 齐 的 。 
ggplot (birthwt，aes (x=bwt)) + geom histogram(fill="white", colour="black") + 
facet_grid(race ~ ., scales="free") 

分 组 绘图 的 另 一 种 做 法 是 把 分 组 变量 映射 给 fil1， 如 图 6-6 所 示 。 此 处 的 分 组 变量 必 
须 是 因子 型 或 者 字符 型 的 向 量 。 对 于 birthwt 数据 集 ， 变 量 smoke 是 合适 的 分 组 变量 ， 
由 于 其 被 存储 为 数值 型 ， 所 以 ， 我 们 使 用 前 面 创建 的 birthwtl 数据 集 ， 该 数据 集中 
的 smoke 变量 是 因子 型 变量 : 


# 把 smoke 转化 为 因子 
birthwti$smoke <- factor (birthwt1Ssmoke) 





# 把 smoke 瑞 射 给 fi11， 取 消 条 形 堆 熏 ， 并 使 图 形 半 泛 明 


ggplot (birthwtl, aes(x=bwt, fill=smoke)) + 
geom histogram(position=" y", alpha=0.4 ) 
语句 position="identity" 很 重要 。 没 有 它 ，ggplot () 函数 会 将 直方 图 的 条 形 进行 
垂直 堆积 ， 这 样 的 话 更 难以 看 清 每 组 数据 的 分 布 信息 。 
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图 6-6 不 同 填 充 色 的 多 组 直方 图 


6.3 ”绘制 密度 曲线 

问题 

如 何 绘制 核 密度 曲线 ? 

方法 

运行 geom_density() 函数 ， 并 映射 一 个 连续 型 变量 到 x ( 见 图 6-7); 


ggplot (faithful, aes (x=waiting)) + geom_density() 


如 果 不 想 绘制 图 形 两 侧 和 底部 的 线段 ， 可 以 使 用 geom_line (stat="density") 函数 
( 见 图 6-7 右 图 ): 


# 使 用 expand_limits () 函数 扩大 y 办 范围 以 包含 0 点 
ggplot (faithful, aes(x=waiting)) + geom line(stat="density") + 
expand_limits (y=)) 
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图 6-7 左 图 : geom_density() 函数 绘制 的 核 密度 曲线 ” 右 图 : geom_line() 函数 绘制 
的 核 密度 曲线 


讨论 
与 geom_histogram() 函数 类 似 ，geom_density() 函数 只 需要 数据 框 中 的 一 列 作为 参数 。 以 
faithful 数据 集 为 例 ， 该 数据 包含 了 两 列 关 于 老 忠实 喷泉 的 数据 : 一 列 是 eruptions， 表 示 
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喷泉 喷发 的 时 长 :第 二 列 是 waiting， 表 示 两 次 喷发 之 间 的 时 间 间 隔 。 下 面 仅 以 waiting 列 为 例 : 


faithful 

eruptions waiting 
3.600 79 
1.800 54 
3.333 74 


上 面 提 到 的 第 二 种 方法 是 使 用 geom_line () 函数 ， 并 告诉 其 使 用 density 统计 变换 。 
这 种 方法 与 第 一 种 使 用 geom_density() 函数 的 方法 在 本 质 上 是 相同 的 ， 只 不 过 前 者 
绘制 的 是 封闭 的 多 边 形 。 


与 使 用 geom_histogram() 函数 类 似 ， 如 果 想 快速 地 绘制 未 在 数据 框 中 的 数据 的 直方 
图 ， 可 以 在 运行 上 述 命令 时 ， 将 数据 框 设 定 为 NULL， 同 时 ， 向 ggplot () 函数 传递 一 
个 包含 所 需 数据 的 向 量 作为 参数 。 这 与 第 一 种 解决 方案 的 结果 相同 ， 

# 将 变量 值 保存 在 一 个 简单 向 量 里 

w <- faithful$waiting 


ggplot (NULL, aes(x=w)) + geom_density() 


核 密度 曲线 是 基于 样本 数据 对 总 体 分 布 做 出 的 一 个 估计 。 曲 线 的 光滑 程度 取决 于 核 函 
数 的 带宽 ， 带宽 越 大 ， 曲 线 越 光滑 。 带 宽 可 以 通过 adj ust 参数 进行 设置 ， 其 默认 值 
为 1。 图 6-8 演示 了 当 adjust 更 大 或 者 更 小 时 图 形 的 展示 效果 : 


ggplot (faithful, aes(x=waiting)) + 
geom_line (stat="der , adjust=.25, colour="red") + 
geom_ line (stat: ) + 
geom line (stat=" ", adjust=2, colour=" 








e") 
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图 6-8 adjust 分 别 为 0.25 (红线)、 默 认 值 1 ( 黑 线 ) 和 2 ( 蓝 线 ) 的 密度 曲线 

本 例 中 ，x 轴 的 坐标 范围 是 自动 设 定 的 ， 以 使 其 能 包含 相应 的 数据 ， 但 这 会 导致 曲线 
的 边缘 被 裁剪 。 想 要 展示 曲线 的 更 多 部 分 ， 可 以 手动 设 定 x 轴 的 范围 ( 见 图 6-9)。 同 
时 ， 设 置 alpha=.2 使 填充 色 的 透明 度 为 80%。 


ggplot (faithful, aes(x=waiting)) + 
geom density (fill="blue", alpha=.2) + 
xlim(35, 105) 
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# 这 段 代码 将 使 用 geom_density() 函数 绘制 一 个 昔 色 多 边 形 ， 并 在 顶端 舌 加 一 条 实 线 
ggplot (faithful, aes(x=waiting)) + 








geom density (fi colour=NA, alpha=.2) + 
geom line(stat="d y 
xlim(33, 105) 
oaa om 
je bP 
oo ao 
oo om 
3] 加 0 0 加 0 
warting ‘wating 











图 6-9 左 图 : x 轴 范 围 更 大 、 填 充 色 为 半 透 明 的 密度 曲线 厂 图 : geom_density() 和 geom_ 
line() 共同 绘制 的 密度 曲线 


如 果 数 据 集 在 绘图 时 发 生 了 曲线 边缘 被 裁 状 的 情况 ， 那 可 能 是 因为 相应 的 核 密度 曲线 
过 于 平滑 一 一 如 果 核 密度 曲线 的 宽度 超过 相应 的 数据 集 的 范围 ， 则 其 可 能 并 非 最 好 的 
模型 。 当 然 ， 也 可 能 是 因为 数据 集 太 小 了 。 


将 密度 曲线 县 加 到 直方 图 上 ， 可 以 对 观测 值 的 理论 分 布 和 实际 分 布 进行 比较 。 由 于 密度 
曲线 对 应 的 > 轴 坐 标 较 小 〈 曲 线 下 的 面积 总 是 1)， 如 果 将 其 全 加 到 未 做 任何 变换 的 直 
方 图 上 ， 曲 线 可 能 会 很 难看 清楚 。 通 过 设置 y=. .density.. 可 以 减 小 直方 图 的 标 度 以 
使 其 与 密度 曲线 的 标 度 相 匹 配 。 这 里 ， 我 们 先 运行 geom_histogram() 函数 绘制 直方 图 ， 
之 后 ， 运 行 geom_density() 函数 将 密度 曲线 绘制 到 更 上 一 层 的 图 层 上 〔 见 图 6-10): 


ggplot (faithful, aes (x=waiting, y=..densit: 
geom_histogram (fill="cornsilk", colour: 
geom density() + 
xlim(35, ) 








0.06- 


density 











图 6-10 ”局 加 到 直方 图 上 的 密度 曲线 
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另 见 
6.9 节 介 绍 了 小 提琴 图 的 相关 内 容 ， 小 提琴 图 是 另 一 种 表示 密度 曲线 的 方法 ， 其 适合 
用 来 对 多 个 分 布 进行 比较 。 


6.4 ”基于 分 组 数据 绘制 分 组 密度 曲线 


问题 
如 何 基于 分 组 数据 绘制 分 组 密度 曲线 ? 


方法 

使 用 geom_density() 函数 ， 将 分 组 变量 映射 给 colour 或 fill 等 图 形 属性 即 可 ， 
如 图 6-11 所 示 。 分 组 变量 必须 是 因子 型 或 者 字符 串 向 量 。 数 据 集 birthwt 对 应 的 最 佳 
分 组 变量 smoke 被 存储 为 数值 型 ， 所 以 ， 我 们 必须 先 将 其 转化 为 因子 ; 


library (MASS) 章 为 了 使 用 数据 
拖 复制 数据 的 副本 
birthwtl <- birthwt 


# 把 变量 smoke 转化 为 因子 
birthwt1$smoke <- factor (birthwt1Ssmoke) 


## 把 变量 smoke 瑞 射 给 colour 

ggplot (birthwt1l, aes(x=bwt, colour=smoke)) + geom density() 

引 把 变量 smoke 映射 给 fil1， 设 置 alpha 使 填充 色 半 透明 

ggplot (birthwtl, aes(x=bwt, fill=smoke)) + geom_density(alpha= ,3) 
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图 6-11 左 图 : 每 组 数据 对 应 于 不 同 的 线条 颜色 右 图 : 每 组 数据 对 应 于 不 同 的 半 透 明 填 充 色 
讨论 

绘制 上 图 时 ， 要 求 所 有 用 到 的 数据 都 包含 在 一 个 数据 框 里 ， 且 数据 框 的 其 中 一 列 是 可 
用 于 分 组 的 分 类 变量 。 


这 里 以 birthwt 数据 集 为 例 。 该 数据 集 包 含 的 是 关于 婴儿 出 生体 重 及 一 系列 导致 出 生 
体重 过 低 的 危险 因子 的 数据 : 
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birthwt 


low age lwt race smoke ptl ht ui ftv bwt 
0 19182 2 0 001 02523 
0 3315 3 0 000 3255 
0 20105 1 1 000 12557 


观察 一 下 变量 smoke (抽烟 与 否 ) 与 变量 bwt (出 生体 重 ， 单 位 是 克 ) 的 关系 。 变 量 
smoke 对 应 的 取 值 是 0 和 1， 但 由 于 其 被 存储 为 数值 型 向 量 ， 因 而 ggplot () 函数 不 知 
道 应 当 将 其 作为 分 类 变量 来 处 理 。 这 时 有 两 种 方法 可 以 选择 ， 一 是 将 数据 框 中 相应 的 
列 转 化 为 因子 ， 二 是 通过 在 aes () 函数 内 部 使 用 命令 factor (smoke) 来 告诉 ggplot () 
函数 把 smoke 当 作 因子 来 处 理 。 本 例 中 ， 我 们 将 其 转化 为 因子 。 

另 一 种 对 分 组 数据 分 布 进行 可 视 化 的 方法 是 使 用 分 面 〈facet)， 如 图 6-12 所 示 。 可 以 令 各 个 分 
面 竖 直 对 齐 或 者 水 平 对 齐 。 下 面 ， 我 们 将 各 分 面 竖 直 对 齐 来 对 分 面 中 的 两 个 分 布 进行 比较 ， 


ggplot (birthwt1，aes (x=byt)) + geom density() + facet grid(smoke ~ .) 
1 
4e-04- 40-04- 1 
be: ee 
0-04- 0-04- 
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图 6-12 左 图 : 分 面 绘制 密度 曲线 右 图 : 修改 分 面 标签 的 分 面 密度 曲线 图 
绘图 有 一 个 问题 ， 即 分 面 标签 只 有 0 和 1， 且 没有 指明 这 个 标签 是 变量 smoke 的 
取 值 。 想 要 修改 标签 ， 我 们 需要 修改 因子 水 平 的 名 称 。 首 先 列 出 现 有 的 因子 水 平 ， 然 
后 ， 依 照相 同 的 顺序 向 它们 赋予 新 的 名 字 : 
levels (birthwt1$smoke) 


mow mln 





用 revalue 孟 数 
hwtl$smoke, c("0"="No Smoke", "1"="Smoke")) 


library (plyr) # 为 了 
birthwtl$smoke <- revalue (b: 


重新 绘图 ， 图 形 中 为 新 的 分 面 标签 〈 见 图 6-12 右 图 )。 


ggplot (birthwt1，aes (x=bwt)) + geom density() + facet_grid(smoke ~ .) 


如 果 要 将 直方 图 和 密度 曲线 绘制 在 一 张 图 上 ， 最 佳 方案 是 利用 分 面 ， 这 是 因为 将 两 个 
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直方 图 绘制 在 同一 张 图 上 的 其 他 方法 都 不 易于 解释 。 操 作 时 ， 需 设 定 y=. .density..， 
这 样 系统 会 将 直方 图 的 y 轴 标 度 降 到 跟 密 度 曲线 相同 。 在 本 例 中 ， 通 过 修改 直方 图 颜 
色 使 直方 图 的 条 形 不 那么 突出 〈 见 图 6-13): 


ggplot (birthwt1, aes(x=bwt, y=..density..)) + 
geom_histogram(binwidth=200, fill="cornsilk", colour="grey60", size=.2) + 
geom density() + 
facet_grid(smoke ~ .) 
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图 6-13 ”区 加 在 直方 图 上 的 密度 曲线 


6.5 ”绘制 频数 多 边 形 

问题 

如 何 绘制 频数 多 边 形 ? 

方法 

使 用 geom_freqpoly() 函数 即 可 〈 见 图 6-14 左 图 ): 
ggplot (faithful, aes (x=waiting)) + geom freqpoly{) 


EAN 


和 














图 6-14 ” 左 图 : 频数 多 边 形 右 图 : 组 距 更 大 的 频数 多 边 形 
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讨论 

频数 多 边 形 看 起 来 跟 核 密度 估计 曲线 相似 ， 但 其 传递 的 信息 类 似 于 直方 图 。 它 跟 直 方 图 

都 描述 了 数据 本 身 的 信息 ， 而 核 密度 曲线 只 是 一 个 估计 ， 且 需要 人 为 输入 带宽 参数 。 

与 直方 图 类 似 ， 可 以 通过 binwidth 参数 控制 频数 多 边 形 的 组 距 〈 见 图 6-14 右 图 ) : 
ggplot (faithful, aes (x=waiting)) + geom freqpoly(binwidth=4) 


或 者 ， 通 过 直接 设 定 每 组 组 距 将 数据 的 x 轴 范 围 切 分 为 特定 数目 的 组 : 
才 将 组 教 设 定 为 15 
binsize <-diff (range (faithfulSwaiting))/ 
ggplot (faithful, aes(x=waiting)) + geom freqpoly(binwidth=binsize) 


另 见 
直方 图 与 频数 多 边 形 传递 的 信息 类 似 ， 只 不 过 其 以 条 形 代替 了 直线 。 相 关内 容 可 参见 61 节 。 


6.6 ”绘制 基本 箱 线 图 


问题 
如 何 绘制 箱 线 图 〈 箱 线 胡 须 图 )? 
方法 
使 用 geom_boxplot () 函数 ， 分 别 映射 一 个 连续 型 变量 和 一 个 离散 型 变量 到 y 和 x 即 
可 ( 见 图 6-15): 

library (MASS) # 为 了 人 











ggplot (birthwt, aes(x=factor (race), y=bwt)) + geom boxplot() 
才 使 用 factor () 函数 将 数值 型 变量 转化 为 离散 型 


2 
tactor(race) 











图 6-15 箱 线 图 
讨论 
下 面 以 MASS 库 中 的 birthwt 数据 集 为 例 。 该 数据 集 包含 的 是 关于 婴儿 出 生体 重 及 一 
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系列 导致 出 生体 重 过 低 的 危险 因子 的 数据 : 


birthwt 





low age lwt race smoke ptl ht ui ftvy bwt 
0 19 182 2 0 0 .01 02523 
0 33 155 3 0 000 32551 
0 20 105 1 1 000 12557 


图 6-15 中 ， 系 统 按 变 量 race 将 数据 分 为 三 组 ， 我 们 对 每 组 数据 对 应 的 bwt 变量 进行 可 视 
化 。 变 量 race 对 应 的 值 为 1、2、3， 然 而 ， 由 于 其 被 存储 为 数值 型 向 量 ，ggplot () 不 知 
道 如 何 将 其 当 作 分 组 变量 来 处 理 。 为 了 使 ggplot () 能 将 其 作为 分 组 变量 来 处 理 ， 我 们 可 
以 调整 数据 框 把 变量 race 转化 为 因子 ， 或 者 通过 在 aes () 语句 内 部 使 用 factor (race) 告 
诉 ggplot () 函数 把 race 当 作 因子 来 处 理 。 在 前 面 的 例子 中 ， 用 的 是 factor (race) 。 


箱 线 图 由 箱 和 “ 须 ”(whisker) 两 部 分 组 成 。 箱 的 范围 是 从 数据 的 下 四 分 位 数 到 上 四 
分 位 数 ， 也 就 是 常 说 的 四 分 位 距 (IQR)。 箱 的 中 间 有 一 条 表示 中 位 数 ， 或 者 说 50% 
分 位 数 的 线 。 须 则 是 从 箱子 的 边缘 出 发 延伸 至 1.5 倍 四 分 位 距 内 的 最 远 的 点 。 如 果 图 
中 有 超过 须 的 数据 点 ， 则 其 被 视 为 异常 值 ， 并 以 点 来 表示 。 图 6-16 使 用 偏 态 的 数据 展 
示 了 直方 图 、 密 度 曲 线 和 箱 线 图 之 间 的 关系 。 








mnmm | lsxop  ， 








图 6-16 箱 线 图 、 直 方 图 和 密度 曲线 的 对 比 图 
设 定 参数 width 可 以 修改 箱 线 图 的 宽度 ( 见 图 6-17 左 图 ): 


ggplot (birthwt, aes(x=factor (race), y=bwt)) + geom boxplot (width= ) 
如 果 图 中 异常 值 较 多 目 图 形 有 重 倒 的话， 可 以 通过 设置 outlier.size 和 outlier.shape 参数 
修改 异常 点 的 大 小 和 点 形 。 异 常 点 默认 的 大 小 是 2， 点 形 是 16， 即 实心 圆 ( 见 图 617 右 图 ): 


ggplot (birthwt, aes(x=factor(race), y=bwt)) + 
geom boxplot (outlier. size=!,$, outlier.shape=, ;) 


绘制 单 组 数据 的 箱 线 图 时 ， 必 须 给 x 参数 映射 一 个 特定 的 取 值 ， 否 则 ，ggplot () 函数 
不 知道 箱 线 图 对 应 的 x 轴 坐标 。 本 例 中 ， 我 们 将 其 设 定 为 1， 并 移 除 x 轴 的 刻度 标记 
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(tick marker) 和 标签 〈 见 图 6-18): 


ggplot (birthwt, aes(x= , y=bwt)) + geom_boxplot() + 
scale_x_continuous (breaks=NULL)+ 
theme (axis.title.x = element blank()) 
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图 6-17 左 图 : 箱子 较 罕 的 箱 线 图 “ 右 图 : 用 小 号 空心 圆 表示 的 异常 点 

















图 6-18” 单 组 数据 箱 线 图 
这 里 计算 分 位 数 的 方法 与 R base 包 中 的 boxplot () 函数 所 使 用 的 计算 方 


法 略 有 不 同 。 当 样本 量 较 小 时 ， 这 个 差异 可 能 会 比较 明显 .键入 ?geom_ 
boxplot () 命令 可 以 查看 这 两 种 计算 方法 的 差异 。 


6.7 向 箱 线 图 添加 模 口 


问题 
如 何 向 箱 线 图 添加 模 口 (notch) 以 比较 各 组 数据 的 中 位 数 是 否 有 差异 ? 
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方法 
使 用 geom_boxplot () 函数 并 设 定 参数 notch=TRUE ( 见 图 6-19): 
library (MASS) ## 为 了 使 用 数据 
ggplot (birthwt, aes(x=factor (race), y=bwt)) + geom boxplot (notch=TRUE) 





5000 -=aa mse wertaeey ee 














图 6-19 ” 带 槽 口 的 箱 线 图 

讨论 

箱 线 图 中 的 模 口 用 来 帮助 查看 不 同 分 布 的 中 位 数 是 否 有 差异 。 如 果 各 箱 线 图 的 模 口 互 
不 重合 ， 说 明 各 中 位 数 有 差异 。 

对 于 本 数据 集 ， 你 会 看 到 如 下 信息 : 


Notch went outside hinges. Try setting notch=FALSE. 


这 表明 置信 域 〈 槽 口 ) 超过 了 某 个 箱子 的 边界 。 本 例 中 ， 中 间 箱 子 对 应 的 模 口 的 上 边 
界 溢出 箱 体 ， 但 由 于 溢出 的 距离 较 小 ， 因 此 ， 在 最 终 的 绘图 输出 中 几乎 看 不 到 。 槽 口 
溢出 到 箱 体 的 边界 并 没有 什么 实质 错误 ， 只 是 在 一 些 极端 案例 中 会 看 起 来 很 奇怪 。 


6.8 向 箱 线 图 添加 均值 
问题 
如 何 向 箱 线 图 添加 均值 标记 ? 


方法 


使 用 stat_summary () 函数 。 箱 线 图 中 的 均值 常 以 钻石 形状 来 表示 ， 所 以 ， 下 面 用 点 形 23 
且 填 充 色 为 白色 的 点 来 表示 。 同 时 ， 通 过 设置 参数 size=3 使 用 略 大 的 点 〈 见 图 6-20): 
library (MASS) # 为 了 使 用 数据 


ggplot (birthwt，aes (x=factor (race), y=bwt)) + geom boxplot() + 
stat_summary (fun.y="m=an", geom="poin:", shape=’;, size=;, fill="whire") 
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图 6-20” 箱 线 图 上 的 均值 标记 


讨论 
箱 线 图 中 间 的 水 平 线 表示 的 是 中 位 数 ， 而 不 是 均值 。 对 于 正 态 分 布 的 数据 ， 中 位 数 与 
均值 会 比较 接近 ， 但 对 于 偏 态 的 数据 它们 将 有 所 不 同 。 


6.9 ”绘制 小 提琴 图 


问题 
如 何 绘制 小 提琴 图 以 对 各 组 数据 的 密度 估计 进行 比较 ? 


方法 
使 用 geom_violin() 函数 即 可 ( 见 图 6-21): 
library (gcookbook) # 为 了 使 用 数据 


间 简单 给 图 
p <-ggplot (heightweight, aes(x=sex, y=heightIn)) 


p + geom violin() 

















图 6-21 ”小 提琴 图 
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讨论 
小 提琴 图 是 一 种 用 来 对 多 组 数据 的 分 布 进行 比较 的 方法 。 使 用 普通 的 密度 曲线 对 多 组 


数据 进行 可 视 化 时 ， 图 中 各 曲线 会 彼此 干扰 ， 因 而 ， 不 宜 用 来 对 多 组 数据 的 分 布 进行 
比较 。 而 小 提琴 图 是 并 排 排 列 的 ， 用 它 对 多 组 数据 的 分 布 进行 比较 会 更 容易 一 些 。 


小 提琴 图 也 是 核 密度 估计 ， 但 绘图 时 对 核 密度 曲线 取 了 镜像 以 使 形状 对 称 。 传 统 画 
法 中 ， 小 提琴 图 中 间 县 加 了 一 个 较 窜 的 箱 线 图 ， 同 时 ， 用 一 个 白 圆圈 表示 中 位 数 ， 
如 图 6-22 所 示 。 另 外 ， 通 过 设置 outlier.colour=NA 可 以 隐 去 箱 线 图 中 的 异常 点 。 


p + geom violin() + geom boxplot (width=, ;, fill="blacs", outlier.colour=NA)+ 
stat_sunmmary (fun.y=median, geom="point", fill="white", shape= , size= ‘) 




















图 6-22 ”区 加 箱 线 图 的 小 提琴 图 

本 例 中 ， 我 们 从 下 而 上 逐 层 绘制 图 形 ， 先 绘制 小 提琴 图 ， 再 胎 加 箱 线 图 ， 之 后 使 用 
stat_summary() 计算 并 绘制 表示 中 位 数 的 白 圆圈 。 

小 提琴 图 默认 的 坐标 范围 是 数据 的 最 小 值 到 最 大 值 ， 其 扁平 的 尾部 在 这 两 个 位 置 处 截 
断 。 通 过 设置 trim=FALSE 可 以 保留 小 提琴 的 尾部 〈 见 图 6-23 ): 


Pp + geom violin (trim=FALSE) 









70- 


: 











图 6-23 ” 带 尾 部 的 小 提琴 图 
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默认 情况 下 ， 系 统 会 对 小 提琴 图 进行 标准 化 以 使 得 各 组 数据 对 应 的 图 的 面积 一 样 ( 如 果 
trim=TRUE， 对 数据 进行 标准 化 时 会 包括 尾部 数据 )。 如 果 不 想 使 各 组 数据 对 应 的 图 的 
面积 一 样 ， 可 以 通过 设置 scale="count" 使 得 图 的 面积 与 每 组 观测 值 数目 成 正比 〈 见 
图 6-24)。 本 例 中 ， 女 性 组 数据 比 男性 组 数据 略 少 ， 所 以 ，f 组 的 小 提琴 图 看 起 来 略 窄 : 


着 校准 小 提琴 图 的 面积 ， 令 其 与 每 组 观测 值 的 数目 成 正比 
p + geom violin(scale="count") 

















6-24 ”面积 大 小 正比 于 观测 数目 的 小 提琴 图 


使 用 6.3 节 中 介绍 的 adjust 参数 可 以 调整 小 提琴 图 的 平滑 程度 。 该 参数 的 默认 值 是 1; 
更 大 的 值 对 应 于 更 平滑 的 曲线 ， 反 之 亦 然 〈 见 图 6-25): 

着 更 平 浙 

p + geom violin(adjust=) 


# 欠 平 济 


p + geom violin(adjust=,5) 














图 6-25 左 图 : 更 平滑 的 小 提琴 图 “ 右 图 : 平滑 度 更 小 的 小 提琴 图 


另 见 
创建 传统 密度 曲线 ， 可 参考 6.3 节 的 内 容 。 使 用 不 同 于 默认 设置 的 点 形 ， 可 参考 4.5 
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节 的 内 容 。 
6.10 绘制 Wilkinson 点 图 


问题 
如 何 绘制 Wikinson 点 图 ， 以 展示 所 有 数据 点 ? 


方法 
使 用 geom_dotplot () 函数 。 这 里 《〈 见 图 6-26) 以 数据 集 countries 的 子 集 为 例 : 


library(gcookbook) 童 为 了 使 用 数据 
countries2009 <- subset (countries，Year== & healthexp>200 0) 


p <- ggplot (countries2009, aes(x=infmortality)) 


p + geom dotplot () 

















图 6-26 点 图 
讨论 
这 种 点 图 有 时 又 叫 Wilkinson 点 图 。 它 与 3.10 节 中 提 到 的 Cleveland 点 图 不 同 。 这 种 图 


中 ， 点 的 分 组 和 排列 取决 于 数据 ， 每 个 点 的 宽度 对 应 了 最 大 的 组 距 。 系 统 默 认 的 最 大 
组 距 是 数据 范围 的 130， 我 们 可 以 通过 binwidth 参数 对 其 进行 调整 。 


默认 情况 下 ，geom_dotplot () 函数 沿 着 x 轴 方向 对 数据 进行 分 组 ， 并 在 y 轴 方向 上 对 
点 进行 堆积 。 图 中 各 点 看 起 来 是 堆积 的 ， 但 受 限于 ggplot2 的 技术 ， 图 形 上 y 轴 的 刻 
度 线 没有 明确 的 含义 。 使 用 scale_y_continuous () 函数 可 以 移 除 y 轴 标签 。 本 例 中 ， 
我 们 还 使 用 geom_rug () 函数 以 标示 数据 点 的 具体 位 置 ( 见 图 6-27): 
Pp + geom dotplot (binwidth=.25) + geom rug() + 

scale_y_continuous (breaks=NULL) +  “# 移 除 刻度 线 

theme (axis.title.y=element_blank()) 弟 移 除 坐标 抽 标 答 
你 可 能 会 注意 到 数据 堆 在 水 平方 向 上 不 是 均匀 分 布 的 。 根 据 默认 的 dotdensity 分 组 
算法 ， 每 个 数据 堆 都 放置 在 它 表示 的 数据 点 的 中 心 位 置 。 要 使 用 像 直 方 图 那样 的 固定 
间距 的 分 组 算法 ， 可 以 令 method="histodot"。 图 6-28 中 ， 你 将 会 发 现 图 中 的 数据 堆 
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并 不 是 居中 放置 的 





nt_blank () ) 


' ss。 。 


nimoralty 


图 6-27 移 除 y 办 标签 、 最 最 大 组 距 为 0.25 25 并 添加 边 际 地 科 b 标 示 数 据点 位 置 的 上 图 


4 , 








4 6 7 
infmortality 








图 6-28 histodot 分 组 ( 固定 宽度 ) 时 的 点 图 
点 图 也 能 进行 中 心 堆 登 ， 或 者 采用 一 种 奇数 与 偶数 数量 保持 一 致 的 中 心 堆 知 方式。 这 可 
以 通过 设置 stac whole" 来 完成 ， 如 图 6-29 所 示 : 








ent_blank () ) 








count 
和 
Ww 
-ee 
2 

名 
ee 

. 

. 


infmortality infmortality 


6-29 左 图 : stackdir="center" 时 的 点 图 “ 右 图 : stackdir="centerwhole" 时 的 点 图 
另 见 


Leland Wilkinson, “ Dot Plots,” The American Statistician 53 (1999): 276-281, http://www. 
cs.uic.edu /~wilkinson/Publications/dots.pdf- 
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6.11 基于 分 组 数据 绘制 分 组 点 图 


问题 
如 何 基于 分 组 数据 绘制 多 个 点 图 ? 
方法 
为 了 比较 多 组 数据 ， 可 以 通过 设 定 binaxis="y" 将 数据 点 沿 着 ? 轴 进 行 堆 倒 ， 并 沿 着 
x 轴 分 组 。 本 例 中 ， 我 们 将 以 heightWeight 数据 集 为 例 ( 见 图 6-30): 
library (gcookbook) 卡 为 了 使 用 数据 


ggplot (heightweight 
geom_dotplot 


aes (x=sex, y=heightIn)) + 
axis="y", binwidth=,5, stackdir= ) 















. 
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图 6-30 沿 着 * 轴 分 组 的 多 组 数据 点 图 
讨论 

有 时 ， 我 们 会 将 点 图 又 加 在 箱 线 
去 箱 线 图 上 的 异常 






这 种 情况 下 ， 应 该 将 数据 点 变 为 空心 ， 同 时 隐 
千 作 为 点 图 的 一 部 分 展示 出 来 〈 见 图 6-31): 





也 可 以 将 点 图 置 于 箱 线 图 旁边 ， 如 图 632 所 示 。 这 需要 用 到 一 些 技巧 ， 通 过 将 x 变量 视 作 数 
值 型 变量 并 对 其 加 减 一 个 微小 的 数值 移动 箱 线 图 和 点 图 的 位 置 ， 使 点 图 位 于 箱 线 图 的 左边 。 

当 x 变量 被 视 为 数值 型 变量 时 ， 必 须 同时 指定 group， 否 则 ， 数 据 会 被 视 为 单独 一 组 ， 
从 而 ， 只 绘制 出 一 个 箱 线 图 和 点 图 。 最 后 ， 由 于 x 轴 被 视 为 数值 型 ， 系 统 会 默认 展示 
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x 轴 刻 度 标签 的 数值 ， 必 须 通过 scale_x_continuous () 函数 对 其 进行 调整 ， 以 使 得 x 
轴 的 刻度 标签 显示 为 与 因子 水 平 相对 应 的 文本 : 























图 6-32 ”放置 于 箱 线 图 旁边 的 点 图 
ggplot (heightweight，aes (x=sex，y=heightIn)) + 
geom boxplot (aes (x=as.numeric (sex) + ,2, group=sex), width=.25) + 
geom dotplot (aes (x=as.numeric (sex) -.2, group=sex), binaxis="y", 
binwidth=,5, stackdir="center") + 
scale_ x_continuous (breaks=i:nlevels (heightweight$sex), 
labels=levels (heightweightSsex)) 


6.12 绘制 二 维 数据 的 密度 图 


问题 
如 何 绘制 二 维 (2D) 数据 的 密度 图 ? 
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方法 
使 用 stat_density2d() 函数 。 该 函数 会 给 出 一 个 基于 数据 的 二 维 核 密度 估计 。 首 先 ， 
我 们 绘制 数据 点 和 密度 等 高 线 图 ( 见 图 6-33 左 图 ): 


## 基础 图 
p <- ggplot (faithful, aes(x=eruptions, y=waiting)) 


Pp + geom point () + stat_density2d() 


也 可 以 使 用 . ,level.. 将 密度 曲面 的 高 度 映射 给 等 高 线 的 颜色 〈 见 图 6-33 右 图 ): 


# 将 height 跨 射 到 阁 色 的 等 高 线 
p + stat_density2d(aes (colour=. .level..)) 

















图 6-33 左 图 : ”数据 点 与 密度 等 高 线 ” 右 图 : 使 用 . .level.. 将 密度 曲面 的 高 度 映射 到 颜色 
讨论 
二 维 核 密度 估计 类 似 于 stat_density() 函数 生成 的 一 维 核 密度 估计 ， 不 过 ， 前 者 展 
示 图 形 的 方法 有 所 不 同 。 系 统 默认 使 用 等 高 线 ， 也 可 以 使 用 瓦 片 图 〈tile) 将 密度 估计 
映射 给 填充 色 或 者 瓦 片 图 的 透明 度 ， 如 图 6-34 所 示 : 
世 将 密度 估计 喘 射 给 十 讽 色 
p + stat_density2d(aes(fill=..density..)，geom="raster"，contour=FALSE) 
章 带 数 据点 ， 并 将 密度 估计 映射 给 alpha 的 瓦 片 图 
p + geom point() + 
stat_density2d(aes (alpha=. .density. .), geom="rile", contour=FALSE) 
前 面 的 第 一 个 例子 中 我 们 使 用 了 geom="raster"， 而 第 二 个 例子 中 使 用 的 
是 geom="tile"。 两 者 的 主要 区 别 在 于 栅 格 几何 对 和 象 能 够 比 瓦 片 更 有 效 地 
* 进行 泻 染 。 理 论 上 ， 两 者 应 该 看 起 来 一 样 ， 但 实际 中 两 者 常常 不 同 。 如 果 
输出 是 PDF 文件 ， 则 图 形 的 外 观 会 依赖 于 打开 PDF 的 浏览 器 类 型 。 在 
一 些 浏览 器 上 ， 当 使 用 瓦 片 时 ， 瓦 片 中 间 可 能 会 有 模糊 的 线 ; 而 当 使 用 
栅 格 时 ， 瓦 片 的 边沿 可 能 会 显示 模糊 (尽管 在 本 例 中 不 存在 这 个 问题 )。 
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图 6-34” 左 图 : 将 密度 估计 映射 给 填充 色 右 图 : 带 数据 点 ， 并 将 密度 估计 刀 射 给 alpha 的 瓦 片 图 


与 一 维 密度 估计 一 样 ， 可 以 对 估计 的 带宽 进行 控制 。 传 递 一 个 指定 x 和 y 带宽 的 向 量 
到 h， 这 个 参数 会 被 传递 给 直接 生成 密度 估计 的 函数 kde2d () 。 本 例 中 〈 见 图 6-35)， 
我 们 将 在 x 轴 和 yy 轴 方 向 使 用 一 个 更 小 的 带宽 ， 以 使 得 密度 估计 对 数据 的 拟 合 程度 更 
高 (可 能 会 有 过 度 拟 合 ); 


p + stat_ density2d(ae 









an 





| er 


6-35 x 轴 和 >? 轴 方 向 上 带宽 更 小 的 密度 图 


另 见 


stat_density2d() 函数 和 st in2d() 函数 的 关系 与 它们 各 自 的 一 维 情形 ， 即 密度 
曲线 和 直方 图 之 间 的 关系 类 似 。 密 度 曲线 是 在 特定 假设 下 对 分 布 的 估计 ， 而 分 组 可 视 
化 则 是 直接 表示 观测 值 。 更 多 关于 数据 分 组 的 内 容 参 见 5.5 节 。 


如 果 想 使 用 不 同 的 调 色 板 ， 参 见 12.6 节 。 
stat_density2d() 可 将 选项 传递 到 kde2d() 函数 ; 输入 ?kde2d 可 以 查看 函数 选项 的 信息 。 
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注解 





仅仅 展示 你 的 数据 是 不 够 的 一 一 还 有 许多 各 式 各 样 的 其 他 信息 可 以 帮助 看 图 者 解读 数 
据 。 除 了 坐标 轴 标 签 、 刻 度 线 和 图 例 这 些 标准 的 保留 元 素 ， 你 还 可 以 向 图 形 添加 独立 
的 图 形 元 素 或 文本 元 素 。 这 些 元 素 可 用 于 增加 额外 的 上 下 文 信息 、 高 亮 图 形 的 某 个 区 
域 ， 或 是 补充 一 些 关 于 数据 的 描述 性 文本 。 


7.1 添加 文本 注解 

问题 

如 何 向 图 形 添加 一 条 文本 注解 ? 

方法 

使 用 annotate () 和 一 个 文本 类 几何 对 象 〈 见 图 7-1): 


P <- ggplot (faithful, aes (x=eruptions, y=waiting)) + geom point() 





, y=4, label= ) + 
+ y=56, label= ) 


p + annotate( /x 
annotate( ， 


讨论 

函数 annotate () 可 以 用 于 添加 任意 类 型 的 几何 对 象 。 在 本 例 中 ， 我 们 使 用 的 几何 对 
象 是 geom="text"。 

我 们 也 可 指定 其 他 文本 属性 ， 如 图 7-2 所 示 : 


P + annotatel , x=), y=49, label= , family= 号 
fontface= , colour= ，size=3) + 
annotate( ,X45, y=06, label= , family=" 
fontface= "Colour= , Size=?) 
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Err Fn 
20 25 30 35 40 45 50 
eruptions 











20 25 30 35 40 45 50 
eruptions 











图 7-2 ”修改 后 的 文本 属性 


当 你 希望 添加 独立 的 文本 对 象 时 ， 千 万 不 要 使 用 geom_text () 。annotate (geom="text") 
会 向 图 形 添加 一 个 单独 的 文本 对 象 ， 而 geom_text () 却 会 根据 数据 创建 许多 的 文本 对 
象 ， 如 5.11 节 讨 论 过 的 那样 。 

如 果 使 用 geom_text () ， 文 本 会 在 相同 的 位 置 被 严重 地 迹 闵 ， 每 个 数据 点 各 重 绘 了 一 次 : 


p + annotate( 
geom_text (x= 





“ 


= ,alpha=.i) + # 
, alpha=.:) 所 
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在 图 7-3 中 ， 每 个 文本 标签 都 是 90% 透明 的 ， 这 样 就 很 清楚 地 显示 出 了 哪 一 个 被 遮盖 
绘制 了 。 在 输出 为 点 阵 格式 时 ， 谈 盖 绘 制 问 题 可 能 会 导致 边缘 走样 (有 锯齿 )。 








20 25 30 35 40 45 50 
eruptions 














7-3 ”其 中 一 个 标 两 个 标签 都 应 为 90% 透明 

如 果 坐 标 轴 是 连续 型 的 ， 你 可 以 使 用 特殊 值 Inf 和 -Inf 在 绘图 区 域 的 边缘 放置 文本 
注解 ， 如 图 7-4 所 示 。 同 时 ， 也 需要 使 用 hjust 和 vjust 来 调整 文本 相对 于 边 角 的 位 
置 一 一 如 果 你 让 它们 留 在 默认 值 的 位 置 上 ， 这 些 文本 就 会 居中 于 边界 线 之 上 。 要 将 文 
本 定位 到 理想 的 位 置 ， 可 能 需要 进行 一 些 尝试 : 


Pp + annotate("rext", x=-Inf, y=Inf, label="Upper left", hjust=-.2, vjust=2) + 
annotate ("text", x=mean(range (faithful$eruptions)), y=-Inf, vjust=-0.4, 
label="Sottom middle") 

















7-4 ” 置 于 绘图 区 域 边缘 的 文本 
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另 见 
参见 5.11 节 以 绘制 带 有 文本 的 散 点 图 。 
关于 控制 文本 外 观 的 更 多 方法 ， 参 见 9.2 节 。 


7.2 在 注解 中 使 用 数学 表达 式 


问题 
如 何 添加 一 条 含 数学 符号 的 文本 注解 ? 
方法 
使 用 annotate (geom="text") 并 设置 parse=TRUE ( 见 图 7-5): 
# 一 条 正太 曲线 
p <- ggplot (data. frame (x=c{(-3, 3)), aes(x=x)) + stat_function(fun = dnorm) 
p + annotate ("text", x=2, y=0.3, parse=TRUE, 
label= ( 中 

















图 7-5 含 数学 表达 式 的 注解 
讨论 
在 ggplot2 中 使 用 parse=TRUE 和 文本 类 几何 对 象 创建 的 数学 表达 式 ， 和 那些 在 R 基础 


图 形 中 利用 plotmath 和 expression 创建 的 数学 表达 式 有 着 类 似 的 格式 ， 唯 一 的 区 别 
是 ， 前 者 以 字符 串 的 形式 存储 ， 而 后 者 是 表达 式 对 象 。 


要 将 常规 文本 融入 表达 式 中 ， 只 需 在 双 引号 内 使 用 单 引号 〈 或 者 反 过 来 ) 标 出 纯 文 本 
的 部 分 即 可 。 通 过 内 部 引号 闭合 的 每 一 块 文本 都 将 被 作为 数学 表达 式 中 的 一 个 变量 对 
待 。 切 记 ， 在 R 的 数学 表达 式 语法 中 ， 你 不 能 简单 地 把 一 个 变量 直接 放 到 另 一 个 变量 
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旁边 却 不 在 中 间 加 上 任何 记号 。 如 图 7-6 所 示 ， 要 显示 两 个 相 邻 的 变量 ， 需 要 在 它们 
之 间 放置 一 个 * 操作 符 ; 在 显示 图 形 时 ， 它 会 被 当 作 一 个 不 可 见 的 乘 号 对 待 〈 要 显示 
一 个 可 见 的 乘 号 ， 需 要 使 用 $*$): 
P + annotate("Fext"，x=-，y=1.05，parse=TRUE，size=3y 
label="'gunction: * « y==fracll, sqrt(2*pi)) * es{-x*2/21") 




















图 7-6 含 常规 文本 的 数学 表达 式 

另 见 

更 多 数学 表达 式 的 示例 可 见 ?plotmath， 数 学 表达 式 的 图 示 参 见 ?demo (plotmath) 。 
参见 5.9 节 以 向 图 形 添加 回归 系数 。 

要 在 数学 表达 式 中 使 用 其 他 字体 ， 参 见 14.6 节 。 


7.3 添加 直线 


问题 
如 何 向 图 形 添加 直线 ? 
方法 


对 于 横 线 和 竖 线 ， 使 用 geom_hline () 和 geom_vline() 即 可 。 对 于 有 角度 的 直线 ， 则 
使 用 geom_abline () 〈 见 图 7-7)。 对 于 下 例 ， 我 们 将 使 用 heightweight 数据 集 : 
library (gcookbook) # 为 了 使 用 数据 集 


Pp <- ggplot (heightweight, aes(x=ageYear, y=heightIn, colour=sex)) + geom_point () 


# 添加 模 线 和 坚 线 
P + geom hline(yintercept= ) + geom vline (xintercept= 5) 
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者 添加 有 角度 的 直线 
p + geom_abline(intercept-3 .5，slope=1. 3) 








但 但 14 合 46 人 145 1 77 
agevear agevear 











图 7-7 左 图 : 横 线 和 竖 线 右 图 : 有 角度 的 直线 

讨论 

上 例 演示 了 手动 设置 直线 位 置 的 方法 ， 效 果 是 每 添加 一 个 几何 对 象 绘制 一 条 线 。 我 们 也 可 
以 将 值 从 数据 映射 到 xintercept、Yintercept 等 之 上 ， 甚 至 是 绘制 另 一 个 数据 框 中 的 值 。 


我 们 将 在 这 里 计算 男性 和 女性 的 平均 身高 ， 并 将 它们 存储 到 一 个 数据 框 hw_means 中 。 
然后 为 每 个 均值 绘制 一 条 水 平 线 ， 并 手工 设 定 linetype 和 size ( 见 图 7-8): 


library(plyr) ## 为 了 使 用 ddply() 函数 
hw_means <- ddply(heightweight, "sex", summarise, heightIn=mean (heightIn)) 


hw_means 
sex heightIn 


£ 60.52613 
m 62.06000 


p + geom hline(aes(yintercept=heightIn, colour=sex), data=hw means, 
linetype=" i",， size=:) 





70- 
有 二 
Bo 














如 果 某 个 坐标 轴 是 离散 型 而 不 是 连续 型 的 ， 不 能 以 字符 串 的 形式 直接 指定 截 距 一 一 必 
须 仍 以 数字 的 形式 指定 它们 。 假 设 此 坐标 轴 表 示 一 个 因子 ， 那 么 第 一 个 水 平 为 数值 1， 
第 二 个 水 平 为 数值 2， 依 次 类 推 。 可 以 像 下 面 这样 手 工 指定 数值 型 的 截 距 ， 或 者 使 用 
which (levels (...)) 计算 所 需 数值 ( 见 图 7-9): 


pg <- ggplot (PlantGrowth, aes(x=group, y=weight)) + geom_point () 
pg + geom vline(xintercept = 2) 


pg + geom vline(xintercept = which(levels (PlantGrowth$group)=="0: 71°)) 

















你 可 能 已 经 注意 到 ， 添 加 直线 与 添加 其 他 的 注解 有 所 不 同 。 我 们 使 用 了 
~ geom hline() 和 其 他 相关 函数 ， 却 并 未 使 用 annotate () 函数 。 这 是 因为 
* ggplot2 的 早期 版 本 中 并 没有 annotate() 函数 。 直 线 几 何 对 象 过 去 被 编码 
用 于 处 理 添加 单条 直线 的 特殊 情况 ， 修 改 它 将 会 破坏 向 下 兼容 性 。 在 未 来 
菜 个 版 本 的 ggplot2 中 ， 这 一 点 将 会 有 所 改变 ，annotate() 将 可 以 配合 直 
线 几 何 对 象 正 常 工作 .。 





另 见 
要 添加 回归 曲线 ， 参 见 5.6 节 和 5.7 节 。 
线条 经 常用 于 显示 数据 的 概要 信息 。 参 见 15.17 节 以 了 解 更 多 按照 组 计算 数据 概要 的 方法 。 


7.4 添加 线段 和 箭头 


问题 
如 何 向 图 形 添加 线段 或 箭头 ? 
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方法 
使 用 annotate ("segment")。 在 本 例 中 ， 我 们 将 使 用 climate 数据 集中 数据 来 源 为 
Berkeley 的 子 集 ( 见 图 7-10); 

library (gcookbook) # 为 了 使 用 数据 集 


), aes (x=Year，y=-RAnomaly10Y)) + 





p <- ggplot (subset (climate, Source=="Berke 
geom_line() 


p + annotate + xend=1950, y=-.25, yend=-.25) 

















图 7-10 ”线段 注解 


讨论 
可 以 使 用 grid 包 中 的 arrow () 函数 向 线段 两 端 添加 箭头 或 平头 。 在 本 例 中 ， 我 们 将 一 
并 演示 〔 见 图 7-11): 


library (grid) 
P + annotate("segment", x=165), xend=152), y=-.35, yend=-.35, colour="blue", 
Size=’, arrow=arrow()) + 
annotate ("sagment", x= + xend=i990, y= 25, yend=-.25, 
arrow=arrow (ends="both", angle=3", length=unit(.2,"cm"))) 








05- 


| 


-05- 


1oy 


-10- 














图 7-11 带 有 箭头 的 线段 
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箭头 线 的 默认 角度 〈angle) 为 30 度 ， 默 认 长 度 (length) 为 0.2 英寸 (0.508 厘米 )。 
如 果 一 个 或 多 个 坐标 轴 是 离散 型 的 ， 则 x 和 ?的 位 置 即 由 拥有 坐标 值 1,2,3 等 的 类 别 项 表示 。 


另 见 
要 了 解 关于 绘制 箭头 所 需 参数 的 更 多 信息 ， 请 载 入 grid 包 后 查看 ?arrow。 


7.5 添加 矩形 阴影 
问题 

如 何 添加 一 个 阴影 区 域 ? 

方法 


使 用 annotate ("rect") ( 见 图 7-12): 


library(gcookbook) 站 为 了 使 用 数据 集 





p <- ggplot (subset (climate, Source=="B "), aes (x=Year, y=Anomalyl0y)) + 
geom_line() 
p + annotate("rect", xmin=1950, xmax=199), ymin=-1, ymax=i，，alpha=.1v 
fill="blue") 
10 
05 
全 
使 
Eo 
Rg 
10~ 
1800 1850 1900 1950 2000 
Year 





图 7-12 ”一 个 矩形 阴影 
讨论 
每 一 个 图 层 都 是 按照 添加 到 ggp1ot 对 象 的 先后 顺序 绘制 的 ， 所 以 上 例 中 的 矩形 被 给 


制 在 了 曲线 上 方 。 在 这 个 例子 中 这 不 成 问题 ， 但 是 如 果 你 想 把 曲线 放 在 矩形 上 方 ， 则 
要 先 添 加 和 矩形， 再 添加 曲线 。 


只 要 传递 了 合适 的 参数 ， 任 意 几 何 对 象 都 可 以 配合 annotate() 使 用 。 在 本 例 中 ， 
geom_rect () 所 需 的 参数 是 x 和 y 的 最 大 值 与 最 小 值 。 
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问题 

如 何 修改 某 一 元 素 的 颜色 以 使 其 突出 显示 ? 

方法 

要 高 亮 一 个 或 多 个 元 素 ， 需 要 在 数据 中 创建 一 个 新 列 并 将 其 映射 为 颜色 。 在 本 例 中 
我 们 将 创建 一 个 新 列 hl， 并 根据 group 的 值 来 设 定 它 的 值 : 








pg <- PlantGrowth ## 复制 一 份 PlantGrowth 数据 
pg$hl <- 
pg$hl [pg$group==" 了 和 F 贞 定 为 "yesw 
接 下 来 使 用 手工 指定 的 颜色 画图 ， 且 不 加 图 例 ( 见 图 7-13); 
g9plot (pg, aes(x= , y=weight, fill=hl)) + geom boxplot() + 
scale_fill manual (values=c(" se "), guide=FALSE) 
60 . 
四 
55 
¥ 
45- 
40 
35 。 - 
ctrl trt1 trt2 
group 











图 7-13 高 亮 一 个 元 素 

讨论 

如 果 你 有 像 本 例 一 样 少量 的 元 素 要 高 亮 ， 那 么 可 以 使 用 原始 变量 并 为 每 个 水 平 指定 颜 
色 ， 而 不 必 创建 一 个 新 列 。 举 例 来 说 ， 下 列 代码 将 使 用 PlantGrowth 数据 中 的 group 
列 ， 并 手工 为 三 个 水 平 逐个 设 定 颜色 。 结 果 看 起 来 与 前 述 代码 相同 : 


ill=group)) + geom boxplot () + 
85", "$FFDDCC"), guide=FALSE) 





ggplot (PlantGrowth, aes(x=group, 
scale_fill_manual (values=c( 





=weight, 
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另 见 
参见 第 12 章 以 了 解 关于 如 何 指定 颜色 的 更 多 信息 。 
关于 移 除 图 例 的 更 多 说 明 ， 参 见 10.1 节 。 


7.7 ”添加 误差 线 


问题 
如 何 向 图 形 添加 误差 线 ? 


方法 


使 用 geom_errorbar 并 将 变量 映射 到 ymin 和 ymax 的 值 即 可 。 对 于 条 形 图 和 折线 图 ， 
添加 误差 线 的 方法 相同 ， 如 图 7-14 所 示 〈 尽 管 条 形 图 与 折线 图 ”的 默认 范围 有 所 不 同 ); 


library (gcookbook) 站 为 了 使 用 数据 集 
# 为 本 例 抽取 cabbage_exp 数据 的 一 个 子 集 


ce <- subset (cabbage exp, Cultivar == "c39") 


砷 为 条 形 图 添加 误差 线 

99plot(ce，aes (x=Date，y~Weight)) + 
geom_bar (fill="white", colour="black") + 
geom_errorbar (aes (ymin=WHeight-se, ymax=Weight+se), width=.-) 


# 为 折线 图 添加 误差 线 
ggplot (ce，aes (x=Date，y-Weight)) + 
geom line (aes (group=1)) + 
geom point (size=1) + 
geom_errorbar (aes (ymin=Weight-se, ymax=Weight+se), width=.2) 




















图 7-14” 左 图 : 条 形 图 上 的 误差 线 右 图 : 折线 图 上 的 误差 线 
讨论 
在 本 例 中 ， 数 据 已 经 包含 了 均值 的 标准 误差 (se)， 我 们 将 利用 它 来 绘制 误差 线 ( 数 
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据 中 也 包含 了 标准 差 (sd) 的 数据 ， 不 过 我 们 在 这 里 用 不 着 它 ): 


ce 


Cultivar Date Weight sdn se 
c39 dl6 3.18 0.9566144 10 0.30250803 
c39 d20 2.80 0.2788867 10 0.08819171 
c39 d21 2.74 0.9834181 10 0.31098410 


为 了 获得 ymax 和 ymin 的 值 ， 我 们 取 y 值 变量 weight 加 上 和 减 去 了 se。 


同样 ， 我 们 使 用 width= .2 指定 了 误差 线 的 末端 宽度 。 要 找到 看 起 来 理想 的 值 ， 最 好 进行 
一 些 试探 。 如 果 你 不 设置 这 个 宽度 ， 则 误差 线 将 会 非常 宽 ， 横 跨 x 轴 上 各 项 的 全 部 空间 。 


对 于 一 幅 分 组 的 条 形 图 ， 各 误差 线 也 必须 被 并 列 dodged); 否则 ， 它 们 会 有 完全 相同 
的 x 坐标 ， 无 法 与 条 形 对 齐 《〈 参 见 3.2 节 以 了 解 关于 分 组 条 形 图 和 并 列 的 更 多 信息 )。 


这 次 我 们 将 利用 完整 的 cabbage_exp 数据 集 : 


cabbage_exp 


Cultivar Date Weight sd n se 
c39 dl6 3.18 0.9566144 10 0.30250803 
c39 d20 2.80 0.2788867 10 0.08819171 
c39 d21 2.74 0.9834181 10 0.31098410 
c52 dl16 2.26 0.4452215 10 0.14079141 
c52 d20 3.11 0.7908505 10 0.25008887 


c52 d21 1.47 0.2110819 10 0.06674995 


geom_bar () 的 默认 并 列 宽度 为 0.9， 你 必须 让 误差 线 的 并 列 宽度 与 此 相同 。 如 果 不 指定 
并 列 宽度 ， 则 默认 按 误差 线 的 宽度 并 列 ， 而 此 宽度 通常 会 小 于 条 形 的 宽度 〈 见 图 7-15): 


om aa 
> = 
> re 
. 
~ pr 
总 3 


图 7-15 ” 左 图 : 分 组 条 形 图 上 的 误差 线 未 指定 并 列 宽度 右 图 : 指定 了 并 列 宽度 


# 反例 : 未 指定 并 列 宽度 

ggplot (cabbage exp, aes(x=Date, y=Weight, fill=Cultivar)) + 
geom bar (position= 站 + 
geom errorbar (aes (ymin=Weight-se, ymax=Weight+se), 
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position="dodge", width=.2) 


# 正 例 : 设 定 并 列 宽度 与 条 形 的 相同 (0.9) 
ggplot (cabbage exp, aes(x=Date, y=Weight, fill=Cultivar)) + 
geom_bar (position="dodge") + 
geom errorbar (aes (ymin=Weight-se, ymax=Weight+se), 
position=position_dodge(). 9), width=.2) 








注意 我 们 在 第 一 个 版 本 中 使 用 了 position="dodge"， 即 position=position_ 
dodge () 的 简写 . 但 如 果 要 传递 一 个 特定 值 ， 我 们 必须 把 它 完整 地 拼 出 ， 





如 position_dodge (0.9)。 


对 于 折线 图 来 说 ， 如 果 误差 线 的 颜色 与 线 和 点 的 颜色 不 同 ， 则 应 先 绘制 误差 线 ， 这 样 它 
们 就 会 位 于 点 和 线 的 下 层 了 。 否 则 ， 误 差 线 将 被 绘制 在 点 和 线 的 上 层 ， 看 起 来 会 不 太 对 。 


另外 ， 你 应 当 同时 并 列 所 有 的 几何 元 素 ， 这 样 它们 就 会 同 误差 线 对 齐 ， 如 图 7-16 所 示 ， 
们 要 重复 使 用 它 





pd <- position_dodge(.]) # 保存 并 列 参数 ， 因 为 


ggplot (cabbage_exp, aes(x=Date, y=Weight, colour=Cultivar, group=Cultivar)) + 
geom errorbar (aes (ymin=Weight-se, ymax=Weight+se), 
width=.?, size=) ,25, colour="black", position=pd) + 
geom line (position=pd) + 
geom_point (position=pd, size=2 ,5) 


# 使 用 size=0.25 绘制 更 细 的 误 益 线 线条 ， 使 用 size=2.5 绘制 更 大 的 点 





35- 
30- 
上 Cultivar 
号 25- 全 c39 
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1 1 
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Date 











图 7-16 折线 图 上 的 误差 线 ， 已 被 并 列 所 以 不 会 相互 重 登 


注意 ， 我 们 设置 了 colour="black” 以 使 误差 线 为 黑色 ， 否 则 它们 将 继承 上 方 的 colour 
值 。 我 们 也 通过 将 Cultivar 映射 到 group 的 方式 来 确保 它 被 作为 分 组 变量 使 用 。 


当 一 个 离散 型 变量 被 映射 到 一 个 如 colour 或 fi11 的 图 形 属性 时 如 条 形 的 例子 )， 
此 变量 就 会 被 用 于 对 数据 进行 分 组 。 但 是 通过 设 定 误差 线 的 colour 属性 ， 我 们 将 使 
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这 个 针对 colour 的 变量 并 没 用 于 分 组 ， 所 以 需要 一 些 其 他 的 途径 来 通知 ggplot () 在 
每 个 x 位 置 的 这 两 组 数据 属于 不 同 的 组 ， 这 样 它们 就 可 以 被 正确 地 并 列 了 。 


另 见 

参见 3.2 节 以 了 解 更 多 关于 创建 分 组 条 形 图 的 信息 ， 参 见 4.3 节 以 了 解 如 何 创建 含 多 
条 线 的 折线 图 。 

参见 15.18 节 以 计算 均值 、 标 准 差 、 标 准 误差 和 置信 域 等 统计 汇总 。 

参见 4.9 节 以 在 数据 沿 x 轴 有 更 高 密度 时 添加 一 个 置信 域 。 


7.8 ”向 独立 分 面 添加 注解 
问题 
如 何 向 图 形 中 的 各 个 分 面 添加 注解 ? 


方法 


使 用 分 面 变量 创建 一 个 新 的 数据 框 ， 并 设 定 每 个 分 面 要 绘制 的 值 。 然 后 配合 新 数据 杠 
使 用 geom_text ()( 见 图 7-17): 


和 本 | 


-十 3 | 





情 厅 和 分 


本 EE 


图 7-17 上 图 : 每 个 分 面 的 注解 不 同 下 图 : 每 个 分 面 的 注解 相同 
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熙 基本 图 形 


P <- ggplot (mpg, aes(x=displ, y=hwy)) + geom point () + facet grid(. 


## 存 有 每 个 分 面 所 需 标签 的 数据 框 


£ labels <- data.frame(drv = c("4", "f", "r"), label = c("4wd", " 


Pp + geom text (x=5, y=40, aes(label=label), data=f labels) 


站 如 果 你 使 用 oan) 标签 将 在 所 有 分 面 上 出 现 
p + annotate("t =6, y=42, label 





~ drv) 





"Rear")) 


讨论 


这 种 方法 可 以 用 于 显示 每 个 分 面 中 关于 数据 的 信息 ， 如 图 7-18 所 示 。 举 例 来 说 ， 我 们 
可 以 展示 每 个 分 面 的 线性 回归 曲线 、 每 条 曲线 的 回归 公式 ， 以 及 的 值 。 要 完成 这 件 





任务 ， 我 们 将 编写 一 个 函数 ， 


它 可 以 输入 一 个 数据 框 并 返回 另外 一 个 数据 框 ， 其 中 包 


含 一 个 含有 回归 公式 的 字符 串 和 一 个 含 普 值 的 字符 串 。 然 后 我 们 使 用 ddply () 将 这 个 


函数 应 用 到 每 一 组 数据 上 : 






上 # 此 函数 返回 一 个 数据 框 ， 基 中 的 字符 第 
# 表示 回 上 和 re^2 值 
# 这 些 字符 囊 将 被 认为 是 R 中 的 数学 表达 式 
lm_labels <- function(dat) { 
mod <- lm(hwy ~ displ, data=dat) 
formula <- sprintf ("itali 
round (coef (mod) [1], 





cy) .2f $+.2£ * italic(x)", 
), round {coef (mod) [2], 2)) 
r <- corldat$displ, dat$hwy) 
r2 <- sprintf ("italic(R’2 2£", r*2) 
data. frame (formula=formula, r2=r2, stringsAsFactors=FALSE) 
上 


library(plyr) 为 7 使 用 ddply() 函数 





labels <- ddply(mpg, "drv", lm labels) 
labels 
drv formula r2 


4 italic(y) == 30.68 -2.88 * italic(x) italic(R^2) 一 0.65 
f italic(y) == 37.38 -3.60 * italic(x) italic(R^2) 一 0.36 
r italic(y) == 25.78 -0.92 * italic(x) italic(R^2) == 0.04 


# 绘制 公式 和 R^2 值 

Pp + geom smooth (met 
geom_text (x=3, y=4 
geom text (x=3, y= 


d=lm, se=FALSE) + 





注解 


, aes(label=formula), data=labels, parse=TRUE, hjust=0) + 
, aes(label=r2), data=labels, parse=TRUE, hjust=0) 
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图 7-18 ”各 个 分 面 中 的 注解 ， 含 有 关于 数据 的 信息 


我 们 需要 在 这 里 编写 自己 的 函数 ， 是 因为 要 生成 线性 模型 并 提取 系数 需要 直接 操作 数 
据 框 中 的 每 个 子 集 。 如 果 你 仅仅 想 要 展示 产值， 通过 配合 ddply () 使 用 summarise () 
函数 并 传递 附加 参数 给 summarise() ， 完 全 可 以 做 得 更 简单 : 


# 计算 每 组 的 r^2 人 
labels <- ddply(mpg, "dru", summarise, r2 = cor(displ, hwy) "2) 
labels$r2 <- sprintf(" ) .2f"，1labelsS$r2) 


文本 类 几何 对 象 并 不 是 可 向 每 个 分 面 独立 添加 的 唯一 几何 对 象 。 只 要 输入 的 数据 结构 
正确 ， 我 们 可 以 使 用 任意 几何 对 象 。 

另 见 

参见 7.2 节 以 了 解 更 多 在 图 形 中 使 用 数学 表达 式 的 方法 。 

如 果 你 不 想 让 ggplot2 使 用 stat_smooth () 为 你 绘制 预测 曲线 ， 而 是 希望 使 用 自己 的 
模型 对 象 绘 制 ， 请 参见 5.8 节 。 
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轴 和 yy 轴 为 解读 所 展示 的 数据 提供 了 上 下 文 信息 。ggplot2 以 默认 设置 显示 的 坐标 轴 
在 多 数 情况 下 看 起 来 都 不 错 ， 不 过 你 也 许 希望 能 够 控制 细节 ， 例 如 ， 坐 标 轴 标签 、 
刻度 线 的 数量 和 布局 、 刻 度 线 标签 等 。 在 本 章 中 ， 将 介绍 如 何 微调 坐标 轴 的 外 观 。 


8.1 交换 x 轴 和 yy 轴 

问题 

如 何 交换 一 幅 图 上 的 x 轴 和 ? 轴 ? 

方法 

使 用 coord_flip () 来 翻转 坐标 轴 《〈 见 图 8-1): 


ggplot (PlantGrowth，aes (x=group, y=weight)) + geom_boxplot () 


ggplot (PlantGrowth，aes {x=group，y=weight)) + geom boxplot() + coord flip() 


各 
a 于 





group 


at tz 35 40 45 50 55 60 
group weight 


图 8-1 左 图 : 含 常规 坐标 轴 的 箱 线 图 “ 右 图 : 交换 了 坐标 轴 的 箱 线 图 
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讨论 

对 于 散 点 图 来 说 ， 调 换 纵 轴 和 横 轴 上 显示 的 元 素 非常 简单 : 仅仅 交换 映射 到 x 和 y 的 
变量 就 可 以 了 。 但 并 不 是 所 有 ggplot2 中 的 几何 对 象 都 会 同等 对 待 x 轴 和 ?了 轴 。 举 例 来 
说 ， 箱 线 图 依 » 轴 对 数据 计算 统计 摘要 ， 折 线 图 中 的 线段 只 沿 x 轴 移 动 ， 误 差 线 只 有 
一 个 单独 的 x 值 但 具有 若干 值 ， 等 等 。 如 果 你 正在 使 用 这 些 几 何 对 象 ， 并 且 希 望 在 
图 形 中 交换 它们 的 坐标 轴 ， 那 么 coord_flip () 正 是 你 所 需要 的 。 

有 时 在 交换 坐标 轴 后 ， 各 项 的 顺序 可 能 正好 与 你 想 要 的 相反 。 在 一 幅 有 着 标准 * 轴 
和 y 轴 的 图 形 上 ， 与 x 对 应 的 项 目 从 左 到 右 排列 ， 这 与 正常 从 左 到 右 的 阅读 方式 一 
致 。 但 是 当 你 交换 了 坐标 轴 ， 各 项 仍 是 从 原点 开始 向 外 排列 ， 在 这 种 情况 下 就 是 从 下 
到 上 ， 与 正常 从 上 到 下 的 阅读 方式 发 生 冲 突 。 某 些 时 候 这 是 一 个 问题 ， 某 些 时 候 又 不 
是 。 如 果 x 变量 是 一 个 因子 型 变量 ， 则 排列 顺序 可 以 通过 使 用 scale_x_discrete() 
和 参数 limits=rev (levels(...)) 进行 反 转 ， 如 图 8-2 所 示 : 


ggplot (PlantGrowth, aes(x=group, y=weight)) + geom_boxplot() + coord flip() + 
scale x_discrete(limits=rev (levels (PlantGrowth$group))) 


| | 


gE mag 
35 40 45 50 55 60 
‘weight 


图 8-2 交换 了 坐标 四 并 友 转 了 x 轴 元 素 顺 序 的 箱 线 图 
另 见 

如 果 变 量 是 连续 型 的 ， 参 见 8.3 节 以 反 转 其 方向 。 
8.2 设置 连续 型 坐标 轴 的 值 域 
问题 

如 何 设置 基 条 坐标 轴 的 值 域 (或 范围 )? 





group 











140 第 8 章 


方法 
你 可 以 使 用 xlim() 或 ylim() 来 设置 一 条 连续 型 坐标 轴 的 最 小 值 和 最 大 值 。 图 8-3 展 
示 了 一 幅 使 用 默认 轴 范 围 的 图 形 和 另 一 幅 手 动 设 定 轴 范 围 的 图 形 : 

p <- ggplot (PlantGrowth，aes (x=group，yY=weight)) + geom boxplot () 

# 显示 基本 图 形 

p 


p+ ylim(0, max(PlantGrowth$weight)) 


a 
FT 一 三 





tt 


we 


1 
0 
1 T b ’ bh 
ct rit we ct wi vie 
group group 











图 8-3 左 图 : 使 用 默认 值 域 的 箱 线 图 。 右 图 : 使 用 手动 设 定 值 域 的 箱 线 图 
第 二 个 示例 将 y 轴 的 值 域 设置 为 从 0 到 weight 列 的 最 大 值 ， 当 然 此 处 使 用 一 个 常数 
值 (如 10) 作为 最 大 值 也 无 妨 。 


讨论 
使 用 ylim() 来 设 定 范围 是 通过 scale_y_continuous() 来 设 定 范围 的 简便 写法 (对 于 
xlim() 和 scale_x_continuous() 同 理 )。 以 下 两 种 表达 方式 等 价 : 


ylim(0, 10) 
scale_y_continuous (limits=c (0, 10)) 


有 时 ， 你 需要 设 定 scale_y_continuous() 的 其 他 属性 ， 在 这 些 情况 下 同时 使 用 
ylim() 和 scale_y_continuous() 可 能 会 让 程序 产生 一 些 不 可 预知 的 行为 ， 这 是 因为 
只 有 命令 中 的 后 一 条 会 生效 。 在 以 下 两 个 示例 中 ，y1im (0，10) 应 当 设 定 y 的 值 域 为 
从 0 到 10， 而 scale_y_continuous (breaks=c (0，5，10)) 应 将 刻度 线 放 置 到 0、5、 
10 的 位 置 。 但 是 在 这 两 个 例子 中 ， 仅 有 第 二 条 命令 生效 ": 


p+ ylim(0，10) + scale y_continuous(breaks=c(0, 5, 10)) 


p + scale y continuous (breaks=c (0, 5, 10)) + ylim(0, 10) 


@@ 原 书 中 给 出 的 代码 为 breaks=NULL， 与 文中 所 述 breaks=c (0,5,10) 不 一 致 ， 可 能 是 笔 误 。 本 段 和 下 一 
段 中 含有 breaks 的 三 条 命令 已 经 依照 原文 进行 了 修正 。 一 一 译 者 注 
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要 让 两 项 修改 均 生 效 ， 售 弃 ylim () 并 直接 在 scale_y_continuous () 中 同时 设 定 
limits 和 breaks 即 可 : 

p + scale y_continuous(limits=c(0，:0)，breaks=c(，:，10)) 
ggplot2 中 有 两 种 设置 坐标 轴 值 域 的 方式 。 第 一 种 方式 是 修改 标 度 ， 第 二 种 方式 是 应 用 一 
个 坐标 变换 。 当 你 修改 x 标 度 和 y 标 度 的 范围 时 ， 任 何在 范围 以 外 的 数据 都 会 被 移 除 一 一 
换言之 ， 超 出 范围 的 数据 不 仅 不 会 被 展示 ， 而 且 会 被 完全 移出 考虑 处 理 的 数据 范围 。 
以 上 文 的 箱 线 图 为 例 ， 如 果 你 限制 了 y 的 值 域 ， 使 得 某 些 原始 数据 被 剪除 掉 ， 则 箱 线 
图 中 统计 量 的 计算 都 会 基于 修剪 后 的 数据 ， 而 箱 线 的 形状 也 会 随 之 改变 。 
通过 使 用 坐标 变换 ， 数 据 则 不 会 被 修剪 ， 从 本 质 上 说 ， 它 只 是 将 数据 放大 或 缩小 到 指 
定 的 范围 。 图 8-4 展示 了 两 种 方式 的 区 别 : 


p+ scale y_continuous(limits = c(5, 6,5)) # 与 使 用 ylim() 相同 


p + coord cartesian(ylim = c(s, 6.5)) 

















图 8-4 左 图 : 使 用 标 度 限制 y 到 更 小 的 范围 (数据 被 丢弃 ， 所 以 箱 线 图 的 形状 发 生 了 改变 ) 
右 图 : 使 用 坐标 变换 “放大 ”了 数据 

最 后 ， 通 过 使 用 expand_limits () 来 单 向 扩展 值 域 也 是 可 以 的 ( 见 图 8-5)。 不 过 ， 你 
不 能 使 用 它 来 缩减 值 域 : 


P + expand_limits (y=)) 

















图 8-5 ?的 值 域 被 扩展 到 包含 0 的 箱 线 图 
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8.3 反 转 一 条 连续 型 坐标 轴 


问题 
如 何 反 转 一 条 连续 型 坐标 轴 的 方向 ? 
方法 
使 用 scale_y reverse 或 scale x_reverse ( 见 图 8-6)。 坐 标 轴 的 方向 也 可 通过 指定 
反 序 的 范围 来 反 转 ， 先 写 最 大 值 ， 再 写 最 小 值 : 
ggplot (PlantGrowth, aes(x=group, y=weight)) + geom boxplot() + scale y reverse() 


者 通过 指定 反 序 的 范围 产生 类 似 的 效果 
ggplot (PlantGrowth, aes(x=group, y=weight)) + geom boxplot() + ylim(  ,  ) 

















图 8-6 反 转 y 轴 后 的 箱 线 图 

讨论 

与 scale_y_continuous() 类 似 ，scale_y_reverse() 也 无 法 与 ylim 配合 工作 (对 x 
轴 属 性 也 一 样 )。 如 果 你 希望 反 转 某 条 坐标 轴 并 为 它 设 定 值 域 ， 则 必须 通过 反 序 设 定 
范围 的 方式 ， 在 scale_y_reverse () 语句 内 完成 〈 见 图 8-7): 


ggplot (PlantGrowth, aes(x=group, y=weight)) + geom boxplot() + 
scale_y_reverse (limits=c(;, )) 





辟 通 栈 芝 
了 国有 有 车 


rn, 
om 
group 














图 8-7 ”手动 设 定 范围 且 反 转 了 y 轴 的 箱 线 图 
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另 见 
要 反 转 离散 型 坐标 轴 项 目的 顺序 ， 参 见 8.4 节 。 


8.4 修改 类 别 型 坐标 轴 上 项 目的 顺序 


问题 

如 何 修改 类 别 型 坐标 轴 上 项 目的 顺序 ? 

方法 

对 于 类 别 型 (或 者 说 离散 型 ) 坐标 轴 来 说 ， 会 有 一 个 因子 型 变量 映射 到 它 上 面 ， 坐 标 轴 上 项 
目的 顺序 可 以 通过 设 定 scale x_discrete() 或 scale y discrete() 中 的 参数 limits 来 修改 。 


要 手动 设 定 坐标 轴 上 项 目的 顺序 ， 将 一 个 依 理想 顺序 排列 的 水 平 向 量 指定 给 limits 
即 可 。 你 也 可 以 使 用 这 个 向 量 来 忽略 某 些 项 目 ， 如 图 8-8 所 示 : 


p <- ggplot (PlantGrowth, aes(x=group, y=weight)) + geom_boxplot () 


p+ scale x discrete(limits=c ("rrtl", "ctrl, "trt2")) 


60- 本 60- 
. 
5.5” 5.5" 
基 
"| 号 5.0- 
45- 4.5- 
40- 40- 
3.5- 


T 了 T 35- T T 
trt1 etrl tr2 ctrl tn1 
group group 


图 8-8 左 图 : 手动 指定 x 轴 项 目 顺序 的 箱 线 图 。 右 图 : 仅 保留 两 项 的 箱 线 图 

讨论 

你 也 可 以 使 用 以 上 方法 在 坐标 轴 上 展示 项 目的 子 集 。 使 用 以 下 语句 将 仅 显 示 ctrl 和 
trtl ( 见 图 8-8 右 图 ): 


p + scale x discrete(limits=c("ctrl", "tre1")) 


要 反 转 项 目 顺序 ， 设 定 1imits=rev (levels (...))， 将 因子 型 变量 放 入 括号 中 即 可 。 
以 下 语句 将 反 转 因子 PlantGrowth$group 的 顺序 ， 如 图 8-9 所 示 : 


p+ scale x discrete(limits=rev(levels (PlantGrowth$group))) 





weight 
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图 8-9 反 转 了 * 轴 项 目 顺序 的 箱 线 图 


另 见 
要 根据 另外 一 列 数据 的 值 对 因子 水 平 进行 重 排序 ， 参 见 15.9 节 。 


8.5 设置 x 轴 和 ?了 轴 的 缩放 比例 


问题 
如 何 设置 x 轴 和 yy 轴 的 缩放 比例 ? 
方法 
使 用 coord_fixed() 。 以 下 代码 将 得 到 x 轴 和 ? 轴 之 间 1:1 的 缩放 结果 ”"， 如 图 8-10 所 示 : 
library(gcookbook) 志 为 了 使 用 数据 集 
sp <- ggplot (marathon, aes(x=Half,y=Full)) + geom point() 
sp + coord_fixed() 
讨论 
marathon 数据 集中 包含 了 跑步 者 的 全 程 马拉松 成 绩 和 半 程 马拉松 成 绩 。 在 这 种 情况 
下 ， 强 制 相同 的 x 轴 和 y 轴 缩放 比例 可 能 是 有 用 的 。 
通过 在 scale_y_continuous () 和 scale_x_continuous () 中 调整 参数 breaks， 从 而 
将 刻度 间距 设 为 相同 ， 也 会 有 所 帮助 (同样 见 图 8-10): 


@@ 作者 在 这 里 所 指 的 1:1 缩放 并 不 是 缩放 结果 的 总 长 宽 比 例 为 1:1， 而 是 指 坐标 轴 单 位 长 度 表示 的 数值 范 
围 是 1:1 的 。 默 认 情况 下 ，ggplot2 使 两 轴 总 长 宽 比 例 为 1:1， 从 而 形成 正方 形 的 绘图 区 域 ， 此 时 两 轴 上 
单位 长 度 表示 的 数值 范围 往往 是 不 同 的 。 一 一 译 者 注 
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sp + coord fixed() + 
scale 了 continuous (breaks=seq()， $2 
scale x_continuous (breaks=seq (0, $2 




















图 8-10 左 图 : 等 长 缩放 坐标 轴 的 散 点 图 “ 右 图 : 在 指定 位 置 放置 了 刻度 线 的 散 点 图 


如 果 你 希望 为 两 个 坐标 轴 之 间 指 定 其 他 的 固定 比例 而 非 相同 的 比例 ， 可 以 设置 参数 
ratio。 对 于 marathon 数据 集 ， 我 们 可 能 想 让 对 应 半 程 马拉松 时 间 的 坐标 轴 被 拉 伸 到 
全 程 马拉松 时 间 坐 标 轴 的 两 倍 ”( 见 图 8-11 )。 我 们 也 将 在 x 轴 上 添加 双 倍 的 刻度 线 : 
sp + coord_fixed(ratio=-/) + 
scale_y_continuous (breaks=seq( ， 
scale x_continuous (breaks=seq( 

















图 8-11 ”坐标 轴 缩 放 比例 为 1/2 的 散 点 图 
GD 这 里 的 倍数 同样 指 单位 长 度 坐标 轴 表 示 的 数值 范围 ， 同 上 。 一 一 译 者 注 
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8.6 设置 刻度 线 的 位 置 


问题 
如 何 设置 刻度 线 在 坐标 轴 上 出 现 的 位 置 ? 


方法 


通常 来 说 ggplot () 会 自动 将 刻度 线 摆 放 在 合适 的 位 置 ， 但 如 果 你 希望 改变 它们 的 位 
置 ， 设 置 标 度 中 的 参数 breaks 即 可 〈 见 图 8-12); 


ggplot (PlantGrowth，aes (x=group，y=weight)) + geom boxplot () 


ggplot (PlantGrowth, aes(x=group, y=weight)) + geom boxplot() + 
scale_y_continuous (breaks=c (4, $4,25, 4.5, 5, 6, 3)) 

















图 8-12 左 图 : 自动 确定 刻度 线 的 箱 线 图 “ 右 图 : 手动 设置 刻度 线 的 箱 线 图 


讨论 
刻度 线 的 位 置 决定 了 绘制 主 网 格 线 的 位 置 。 如 果 该 坐标 轴 表 示 一 个 连续 型 变量 ， 那 么 
颜色 更 暗 且 没有 标签 的 次 网 格 线 将 被 默认 绘制 在 每 两 个 主 网 格 线 的 正中 间 位 置 。 


你 也 可 以 使 用 seq() 函数 或 运算 符 : 来 生成 刻度 线 的 位 置 向 量 : 


seq(4, 1, by=.) 


4.0 4.5 5.0 5.5 6.0 6.5 7.0 


5678 910 


如 果 坐标 轴 是 离散 型 而 不 是 连续 型 的 ， 则 默认 会 为 每 个 项 目 生成 一 条 刻度 线 。 对 于 离 
散 型 坐标 轴 ， 你 可 以 通过 指定 1imits 来 修改 项 目的 顺序 或 移 除 项 目 (参见 8.4 节 )。 设 
定 breaks 将 会 决定 为 哪些 水 平 加 上 标签 ， 但 不 会 移 除 它们 或 是 改变 它们 的 顺序 。 
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8-13 展示 了 当 你 设 定 limits 和 breaks 时 将 会 发 生 的 情况 : 


单 为 离 敬 型 坐标 扫 
ggplot (PlantGrowth, 
scale_x_discrete(limits=c 


60- 

557 
蕊 
| 

45- 


ca 






eight)) + geom_boxplot () + 
"), breaks="ctrl") 











group 





图 8-13 ”对 离散 型 坐标 轴 ， 设 置 limits 以 重 排序 或 移 除 项 目 ， 同 时 设置 breaks 来 控制 哪些 项 
目 拥 有 标签 


另 见 
要 从 图 中 移 除 刻度 线 和 刻度 线 标签 《不 修改 数据 ) ， 参 见 8.7 节 。 


8.7” 移 除 刻度 线 和 标签 


问题 
如 何 移 除 刻 度 线 和 刻度 标签 ? 


方法 

要 像 图 8-14 左 图 一 样 仅 移 除 刻度 标签 ， 使 用 theme (axis.text.y = element_ 
blank()) (也 可 对 axis.text.x 做 相同 处 理 ) 即 可 。 这 种 方法 对 于 连续 型 和 离散 型 坐 
标 轴 均 有 效 : 


P <- ggplot (PlantGrowth, aes(x=group, y=weight)) + geom boxplot() 


p + theme(axis.text.y = element_blank()) 


要 移 除 刻 度 线 ， 可 使 用 theme (axis.ticks=element_blank()) 。 这 样 将 会 同时 移 除 两 
轴 的 刻度 线 (无 法 仅 隐藏 单 个 坐标 轴 的 刻度 线 )。 在 本 例 中 ， 我 们 将 隐藏 所 有 的 刻度 
线 和 y 轴 的 刻度 标签 ( 见 图 8-14 中 图 ): 


p + theme(axis.ticks = element blank(), axis.text.y = element_blank()) 
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图 8-14，” 左 图 :y 轴 上 无 刻度 标签 ; 中 图 :》 轴 上 了 既 无 刻度 线 也 无 刻度 标签 右 图 : 使 用 breaks=NULL 
要 移 除 刻度 线 、 刻 度 标 签 和 网 格 线 ， 将 breaks 设置 为 NULL 即 可 ( 见 图 8-14 右 图 ): 


Pp + scale_y_continuous (breaks=NULL) 
这 种 方法 仅 对 连续 型 坐标 轴 有 效 ， 如 果 像 8.4 节 中 那样 使 用 limits 从 类 别 型 坐标 轴 上 
移 除 项 目 ， 则 含有 对 应 值 的 数据 将 完全 不 被 显示 。 
讨论 
事实 上 ， 共 有 三 种 项 目 可 以 控制 ， 刻度 标 签 、 刻 度 线 和 网 格 线 。 对 于 连续 型 坐标 轴 ， 
ggplot () 通常 会 在 每 个 breaks 值 的 位 置 放置 刻度 线 、 刻 度 标 签 和 主 网 格 线 。 对 于 类 
别 型 坐标 轴 ， 这 些 元 素 则 出 现在 每 个 limits 值 的 位 置 。 


我 们 可 以 独立 控制 每 条 坐标 轴 上 的 刻度 标签 。 但 是 ， 刻 度 线 和 网 格 线 必须 同时 控制 。 


8.8 修改 刻度 标签 的 文本 

问题 

如 何 修改 刻度 标签 的 文本 ? 

方法 

考虑 图 8-15 中 的 散 点 图 ， 身 高 (变量 heightIn) 是 以 英寸 的 数值 表示 的 : 


据 集 














library(gcookbook) # 为 了 使 


hwp <- ggplot (heightweight, aes (x=ageYear, y=heightIn)) + 
geom_point () 


hwp 


要 像 图 8-15 右 图 一 样 任意 设 定 标签 ， 在 标 度 中 为 breaks 和 labels 赋值 即 可 。 其 中 的 
一 个 标签 含有 一 个 换行 符 〈\n)， 意 为 让 ggplot () 在 那里 另 起 一 行 : 


hwp + scale_y_continuous (breaks=c( 
labels=c("T 
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图 8-15 左 图 : 自动 绘制 刻度 标签 的 散 点 图 “ 右 图 : 手动 指定 y 轴 刻 度 标签 的 散 点 图 


讨论 

除了 完全 任意 地 设置 标签 以 外 ， 更 常见 的 情况 是 数据 以 某 种 格式 存储 ， 而 我 们 希望 以 
另外 一 种 格式 显示 标签 。 举 例 来 说 ， 我 们 可 能 想 让 身高 变量 显示 为 英尺 和 英寸 的 格 
式 〈 像 5 6" 这 样 )， 而 不 是 仅仅 显示 一 个 英寸 数值 。 要 完成 这 项 任务 ， 我 们 可 以 定义 
一 个 格式 刷 (formatter) 函数 ， 这 样 的 函数 可 以 读 入 数值 并 返回 相应 的 字符 串 。 例 如 ， 
以 下 函数 可 将 英寸 数值 转换 为 英尺 加 英寸 的 格式 : 


footinch formatter <- function(x) { 

foot <- floor(x/ ) 

inch <- x 外 

return (paste (foot, "'", inch,"\"", sep="")) 
} 


下 面 是 此 函数 对 输入 值 56 ~ 64 的 返回 结果 《〈 反 和 斜 杠 是 转 义 符 ， 用 来 区 分 字符 串 中 所 
含 的 引号 和 字符 串 本 身 的 定 界 引号 ): 


footinch formatter( :1) 





arg8\nn na'9\nn mgr10\nn warll\n" "5rO\nn mw5'1Vww n5'2\nn n5r3\nn n5r4\nn 
现在 就 可 以 使 用 参数 labels 把 我 们 的 函数 传递 给 标 度 了 ( 见 图 8-16): 

hwp + scale_y_continuous (labels=footinch formatter) 
在 图 中 ， 每 隔 五 英寸 放置 了 一 个 自动 生成 的 刻度 线 ， 但 是 对 于 这 个 数据 来 说 看 起 来 有 
些 古怪 。 我 们 可 以 通过 指定 参数 breaks 让 ggplot () 每 隔 四 英寸 设置 一 条 刻度 线 取 而 
代 之 〈 见 图 8-16 右 图 ): 

hwp + scale_y_continuous (breaks=seq(i5， 7?, 4$), labels=footinch formatter) 
另 一 项 常见 任务 是 将 时 间 测度 转换 为 HH:MM:SS (时 : 分 : 秒 ) 或 者 其 他 类 似 的 格式 。 
以 下 函数 可 以 读 入 分 钟 的 数值 并 将 它们 转换 为 这 种 格式 ， 同 时 舍 入 到 最 接近 的 秒 数 
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(也 可 以 按照 你 的 特殊 需要 来 自 定义 ): 


timeHMS_formatter <- function(x) { 
h <= floor (x/67) 
m <- floor(x 8 5) 
s <- round(Eot(x $$% 1)) 
lab <- sprintf( "hy m, s) 
lab <- gsub( »"", lab) # 
lab <- gsub("*0", "", lab) = 
return (1ab) 











a 
wi 证 
一 一 加 
这 [3 
。 略 ! 一 
| 
[ 


1 


4 





的 14 16 








图 8-16 左 图 : 使 用 格式 刷 函 数 的 散 点 图 “ 右 图 : 手动 指定 y 轴 breaks 的 散 点 图 
使 用 一 些 示例 数值 运行 它 会 得 到 : 

timeHMS_formatter (c(. 13, 0, 760 )) 

"0:20" "50:00" "51:15" "59:19" "1:00:00" "1:00:06" "2:10:14" 
随 ggplot2 安装 的 scales 包 自 带 了 一 些 内 建 的 格式 化 函数 : 


。 comma () 在 千 、 百 万 、 十 亿 等 位 置 向 数字 添加 逗号 ”。 

。 dollar() 添加 一 个 美元 符号 并 舍 入 到 最 接近 的 美 分 。 

。 percent () 乘 以 100， 低 入 到 最 接近 的 整数 值 ， 并 添加 一 个 百 分 号 。 
。 scientific() 对 大 数字 和 小 数字 给 出 科学 记 数 法 表示 ， 如 3,30e+05。 


如 果 你 希望 使 用 这 些 函 数 ， 必 须 首先 使 用 library(scales) 加 载 scales 包 。 


8.9 修改 刻度 标签 的 外 观 


问题 
如 何 修改 刻度 标签 的 外 观 ? 


中” 即 英语 中 对 于 阿拉 伯 数 字 三 位 一 隔 的 记 法 。 一 一 译 者 注 
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方法 
在 图 8-17 左 图 中 ， 我 们 手动 设 定 了 较 长 的 标签 一 一 长 到 足以 互相 重合 : 
bp <- ggplot (PlantGrowth, aes(x=group, y=weight)) + geom boxplot() + 


scale x discrete (breaks= 
labels=c( 





"Treatment 2")) 


bp 
要 将 文本 逆 时 针 旋转 90”( 见 图 8-17 中 图 )， 只 需 使 用 ;: 


bp + theme(axis.text.x = element text (angle=90, hjust=i, vjust=.5)) 


i 














mae Yemen gone wt en 
wooo woe, op 





图 8-17 x 轴 的 刻度 标签 被 旋转 了 0”( 左 图 )、90”( 中 图 ) 和 30”( 右 图 ) 
将 文本 旋转 30”( 见 图 8-17 右 图 ) 可 以 占用 更 小 的 纵向 室 间 ， 并 且 可 以 让 你 在 不 转 头 
的 情况 下 还 能 容易 地 阅读 : 

bp + theme (axis,text.x = element text (angle=30, hjust=], vjust=1)) 
参数 hjust 和 vjust 设置 了 横向 对 齐 〈 左 对 齐 / 居中 / 右 对 齐 ) 和 纵向 对 齐 ( 顶 部 对 齐 / 
居中 /底部 对 齐 )。 
讨论 
除了 旋转 以 外 ， 其 他 的 文本 属性 ， 如 大 小 、 样 式 ( 粗 体 / 和 斜体 /常规 ) 和 字体 族 (如 
Times 或 Helvetica) 可 以 使 用 element_text () 进行 设置 ， 如 图 8-18 所 示 : 


face="italic", 
size=rel(0.9))) 





bp + theme (axis.text.x = element text (family= 
colour=! 


Ee 


Cantml 2 

















图 8-18 手动 指定 外 观 的 x 轴 刻 度 标签 
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在 本 例 中 ，size (文字 大 小 ) 被 设 为 rel (0.9) ， 意 为 当前 主题 基础 字体 大 小 的 0.9 倍 。 


这 些 命令 仅仅 控制 了 单个 坐标 轴 上 刻度 标签 的 外 观 ， 并 不 影响 其 他 坐标 轴 、 坐 标 轴 标 
签 、 整 体 的 标题 或 图 例 。 要 同时 控制 所 有 这 些 元 素 的 外 观 ， 可 以 使 用 主题 系统 ， 如 9.3 
节 中 所 讨论 的 那样 。 


另 见 
参见 9.2 节 以 了 解 更 多 关于 如 何 控制 文本 外 观 的 人 


8.10 修改 坐标 轴 标签 的 文本 


问题 
如 何 修改 坐标 轴 标 签 的 文本 ? 

方法 

使 用 xlab() 或 ylab() 来 修改 坐标 轴 标 签 的 文本 〈 见 图 8-19): 


library(gcookbook) # 为 了 使 用 数据 集 





hwp <- ggplot (heightweight, aes(x=ageYear, y=heightIn, colour=sex)) + 





和 设置 





so- 


ageYear 站 Age in years 











-19 左 图 : 使 用 默认 坐标 轴 标 签 的 散 点 图 “ 右 图 : 为 x 轴 和 y 轴 手 动 指定 了 坐标 轴 标 签 的 
散 点 图 
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讨论 
默认 情况 下 ， 图 形 将 直接 使 用 数据 框 中 的 列 名 作为 坐标 轴 标 签 。 这 对 于 探索 数据 来 说 
可 能 还 好 ， 但 是 在 对 外 呈现 数据 时 ， 你 也 许 会 希望 使 用 更 具 描 述 力 的 坐标 轴 标 签 。 
除了 xlab() 和 ylab()， 也 可 以 使 用 labs() : 

hwp + labs(x = "Age in years"，y = "Height in inches") 
设置 坐标 轴 标 签 的 另 一 种 方法 是 在 标 度 中 指定 ， 就 像 这 样 : 

hwp + scale x_continuous (name="age in years") 


这 种 方法 看 起 来 可 能 有 点 别扭 ， 不 过 可 能 在 你 同时 设 定 标 度 的 其 他 属性 〈 如 刻度 线 位 
置 、 值 域 等 ) 时 会 比较 有 用 。 


当然 ， 这 种 方法 同样 适用 于 其 他 的 坐标 轴 标 度 ， 如 scale_y_continuous()、scale_ 


x_discrete() 等 。 


还 可 以 使 用 \n 来 添加 换行 ， 如 图 8-20 所 示 : 


hwp + scale_x_continuous (name="Age\n (years)") 

















图 8-20 ” 含 一 个 换行 的 x 轴 标 签 


8.11 移 除 坐标 轴 标 签 


问题 
如 何 移 除 某 条 坐标 铀 的 标签 ? 
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方法 
对 于 x 轴 标签 ， 使 用 theme (axis.title.x=element_blank())。 对 于 了 轴 标 签 ， 针 对 
axis.title.y 做 同样 处 理 。 


我 们 将 在 本 例 中 隐藏 x 轴 标签 〈 见 图 8-21): 


p <- ggplot (PlantGrowth, aes(x=group, y=weight)) + geom boxplot() 


p + theme (axis.title.x=element_blank()) 








pp 
ctrl at we 











图 8-21 左 图 : 使 用 elenent_blank() 处 理 的 x 轴 标 签 、 右 图 : 将 标签 设 为 "" 
讨论 


某 些 坐标 轴 标 签 对 于 上 下 文 来 说 是 兄 余 的 或 者 是 显而易见 的 ， 因 此 并 不 需要 显示 。 在 
这 个 示例 中 ，x 轴 表示 变量 group， 但 是 这 一 点 可 以 很 明显 地 从 上 下 文 看 出 来 。 类 似 地 ， 
如 果 ? 轴 在 每 个 刻度 标签 上 都 标注 kg 千克 ) 或 类 似 的 单位 ， 则 坐标 轴 标签 “weight” 
就 没有 必要 显示 了 。 
移 除 坐标 轴 标 签 的 另 一 种 方法 是 将 其 设 为 一 个 空 字符 串 。 但 如 果 以 这 种 方式 去 做 ， 那 
么 图 中 将 仍 为 文本 留 出 空间 ， 如 图 8-21 右 图 所 示 : 

p + xlab(™”) 
当 你 使 用 theme () 来 设置 axis.title.x=element_blank() 时 ,x 或 y 标 度 的 名 称 是 不 
会 改变 的 ， 只 是 这 样 不 会 显示 文本 而 且 不 会 为 其 留 出 空间 。 当 你 设置 标签 为 "" 时 ， 
标 度 的 名 称 就 改变 了 ， 并 且 实 际 上 显示 了 空白 的 ) 文本 。 


8.12 ”修改 坐标 轴 标 签 的 外 观 


问题 
如 何 修改 坐标 轴 标 签 的 外 观 ? 
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方法 
要 修改 x 轴 标 签 的 外 观 〈 见 图 8-22)， 使 用 axis.title.x 即 可 : 
library (gcookbook) # 为 了 使 用 数据 集 


hwp <- ggplot (heightweight, aes(x=ageYear, y=heightIn)) + geom point () 


hwp + theme (axis.title.x=element text (face="italic", colour="darkred", size=14)) 








. 
a 
20 二 + 国 < 
.A 
| . 
65- ~ 
et 5 
总， 
Eo0 a es 
Cr Ce 
ee wn ae 三才 
。 ~ 
he 
4 有 
机 二 二 本 
12 13 14 1 16 1 人 
ageyear 











图 8-22 ” 自 定 义 外 观 的 x 轴 标 签 


讨论 
对 于 轴 标签 来 说 ， 有 时 不 对 文本 进行 旋转 会 比较 有 用 ， 如 图 8-23 左 图 所 示 。 标 签 中 
的 \n 表示 另 起 一 行 : 


hwp + ylab("Height\n(inches)") + 
theme (axis.title.y=element text (angle=0, face="italic", size=14)) 


当 调用 element_text () 时 ， 默 认 的 角度 是 0， 所 以 如 果 设 置 了 axis.title.y 但 没有 
指定 这 个 角度 ， 它 将 以 文本 的 顶部 指向 上 方 的 朝向 显示 。 如 果 修改 了 axis.title.y 
中 的 其 他 任何 属性 并 且 希 望 它 以 正常 朝向 ， 即 旋转 90” 显 示 ， 则 必须 手动 指定 这 个 角 
度 ( 见 图 8-23 右 图 ): 


hwp + ylab("Height\n(inches)") + 
theme (axis.title.y=element_ text (angle=90, face="italic", colour="darkred", 


size=14)) 


156 第 8 章 





Height 
(inches)« 


Height 
(Inches) 


evear ”agevea _ 
图 8-23 左 图 : angle=0 的 ) 轴 标 签 ” 右 图 : angle=90 的 y 轴 标签 
另 见 
参见 9.2 节 以 了 解 更 多 关于 如 何 控制 文本 外 观 的 信息 。 


8.13 沿 坐 标 轴 显 示 直 线 

问题 

如 何 沿 x 轴 和 >? 轴 显 示 直 线 ， 但 不 在 图 形 的 另 两 侧 显示 ? 
方法 

使 用 主题 设置 中 的 axis.line ( 见 图 8-24): 


library (gcookbook) ## 为 了 使 用 数据 集 








p <- ggplot (heightweight, aes(x=ageYear, y=heightIn)) + geom point() 





p + theme(axis.line = el line (colour= )) 














heightin 











agevear agevear | 





图 8-24 左 图 : 含 坐标 轴线 的 散 点 图 “ 右 图 : 使 用 theme_bw() 时 ， 需 将 panel.border 也 设 为 
空白 
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讨论 
如 果 你 最 初 使 用 的 主题 在 绘图 区 域 的 周围 就 有 一 条 边 〈 如 theme_bw() )， 则 需要 同时 
重 署 参 数 panel.border ( 见 图 8-24 右 图 ): 


P + theme bw() + 
theme (panel.border = element blank()， 
axis.line = element_line(colour= )) 


如 果 边 界线 比较 粗 ， 则 它们 的 末端 将 仅 会 部 分 地 重合 ( 见 图 8-25 左 图 )。 要 让 它们 完 
全 重合 ( 见 图 8-25 右 图 )， 设 置 lineend="square" 即 可 : 


二 较 查 的 线条 ， 只 





theme_bw() + 
theme (panel .border = element 
axis,line = element_line(colour= , Size=4)) 





# 完全 重 益 


p + theme bw() + 


, size=4, lineend= 








图 8-25 “ 左 图 : 对 于 粗 线条 ， 末 凋 不 会 完全 重 登 ” 右 图 : 使 用 1ineend="square" 邻 其 完全 重 登 
另 见 
关于 主题 系统 工作 原理 的 更 多 信息 ， 参 见 9.3 节 。 


8.14 ”使 用 对 数 坐 标 轴 
问题 

如 何在 一 幅 图 上 使 用 对 数 坐 标 轴 ? 
方法 


使 用 scale_x_log10() 和 /或 scale_ y log10() ( 见 图 8-26): 


158 第 8 章 


library (MASS) # 为 了 使 用 数据 入 


条 基本 图 形 

p <- ggplot (Animals, aes (x=body, y=brain, label=rownames (Animals))) + 
geom text (size= ) 

p 


所 使 用 对 数 x 标 度 和 对 数 了 标 度 
p+ scale x 10g910() + scale y_ 10g10() 








body 











图 8-26 左 图 : 使 用 线性 标 度 坐 标 遇 展示 呈 指数 分 布 的 数据 “ 右 图 : 使 用 对 数 毕 标 四 
讨论 
使 用 对 数 坐标 轴 时 ， 视 觉 上 某 段 给 定 的 距离 表示 着 常数 倍 的 比例 改变 ， 举 例 来 说 ，) 


轴 上 每 增加 1 厘米 可 能 表示 数量 乘 以 10。 相 对 而 言 ， 使 用 线性 坐标 轴 时 ， 视 觉 上 某 段 
给 定 的 距离 表示 着 常数 单位 数量 的 改变 ; 每 增加 1 厘米 可 能 表示 数量 上 增加 了 10。 


某 些 数据 集 在 x 轴 上 是 呈 指 数 分 布 的 ， 而 另 一 些 则 是 在 y 轴 上 旦 指数 分 布 ( 或 者 两 轴 
结 是 )。 例 如 ，MaASS 库 中 的 Animals 数据 集 包 含 了 各 类 哺乳 动物 平均 脑 质量 (单位 为 g) 
和 体重 (单位 为 kg) 数据 ， 还 加 入 了 若干 种 恐龙 的 数据 作为 对 照 : 
Animals 
body brain 
Mountain beaver = 1.350 8.1 


Cow 465.000 423.0 
Grey wolf 36.330 119.5 


Brachiosaurus 87000.000 154.5 
Mole 0.122 3.0 
Pig 192.000 180.0 


如 图 8-26 所 示 ， 我 们 可 以 绘制 一 幅 散 点 图 来 对 脑 质 量 和 体重 之 间 的 关系 进行 可 视 化 。 
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在 使 用 默认 的 线性 标 度 坐标 轴 时 ， 我 们 很 难 更 好 地 理解 这 幅 图 。 由 于 几 种 大 型 动物 的 
存在 ， 其 余 的 动物 都 被 挤 到 了 左下 角 一 一 这 让 老鼠 (mouse) 与 三 角 龙 (triceratops) 
看 起 来 几乎 没有 区 别 ! 这 就 是 一 个 数据 在 两 条 坐标 轴 上 均 呈 指数 分 布 的 例子 。 
关于 将 刻度 线 放 到 何 处 的 问题 ，ggplot2 会 试 着 做 出 明智 的 选择 ， 但 是 如 果 你 不 喜欢 这 
些 刻度 ， 那 么 可 以 通过 指定 breaks (也 可 再 额外 指定 labels) 来 修改 它们 。 在 这 个 
示例 中 ， 自 动 生 成 刻度 线 的 间距 较 理想 的 间距 更 远 。 针 对 ?了 轴 的 刻度 线 ， 我 们 可 以 像 
下 面 这 样 获得 一 个 含有 从 10" 到 10? 的 10 的 各 次 究 的 向 量 : 

~(0:3) 

1 10 100 1000 
x 轴 刻 度 线 的 工作 原理 相同 ， 不 过 由 于 这 里 的 值 域 过 大 ，R 会 自动 将 输出 格式 化 为 科 
学 记 数 法 的 形式 : 

~(-1:5) 

1e-01 le+00 le+01 le+02 le+03 le+04 le+05 
之 后 我 们 就 可 以 使 用 这 些 值 作为 分 割 点 了 ， 如 图 8-27 左 图 所 示 : 





p + scale x_log10 (breaks=;^(-1:5)) + scale_ y_ log10(breaks=10^(033)) 
sl md 
‘oo PR wo -i 
eo bo 
re re 
0 "ww ee "er er 
和 rn We 
上 oa 
昌 ee。 Cu 
Cr Sr 
we be 
四 四 
~ 
re CR Wi 
bo booy 











图 8-27 左 图 : x 轴 和 ;y 轴 取 以 10 为 底 对 数 的 散 点 图 ， 并 手动 指定 了 刻度 的 位 置 ” 右 图 : 指数 
表示 的 刻度 标签 


要 让 刻度 标签 转 而 使 用 指数 记 数 法 〈 见 图 8-27 右 图 )， 只 要 使 用 scales 包 中 的 函数 


trans_format () 即 可 : 


library (scales) 
p + scale x log10 (breaks=) ~(- :5), 





labels=trans_format ("iog10", math_format (10^.x))) + 
scale y log10 (breaks= ~ (7:3), 
labels=trans_format ("iog10", math format (10^.x))) 
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使 用 对 数 坐标 轴 的 另 一 种 方法 是 ， 在 将 数据 映射 到 x 和 ?坐标 之 前 ， 先 对 其 进行 变换 
〈 见 图 8-28)。 从 技术 上 讲 ， 坐 标 轴 仍 然 是 线性 的 一 一 它 表示 对 数 变换 后 的 数值 : 


ggplot (Animals，aes (x=10g10 (body) ，yY=1og10 (brain), label=rownames (Animals))) + 
geom_text (size=) 








2 
log10(body) 
图 8-28 ”映射 到 x 轴 和 y 轴 之 前 先进 行 对 数 变 换 再 绘图 


上 例 中 仅 使 用 了 一 个 logw 变换 ， 不 过 使 用 其 他 的 变换 也 是 可 以 的 ， 如 以 2 为 底 的 对 数 
变换 和 自然 对 数 变换 ， 如 图 8-29 所 示 。 使 用 这 些 变换 有 点 复杂 一 一 scale_x_10g10() 
可 以 简写 ,但 是 对 于 其 他 的 对 数 标 度 而 言 ， 我 们 需要 完整 地 定义 它们 : 


library (scales) 











## 对 x 使 用 自然 对 数 变换 ， 对 y 使 用 log2 变换 
p+ scale x continuous (trans = log trans()， 
breaks = trans breaks("log", function(x) exp(x)), 
labels = trans_format("}og", math format(e*.x))) + 
scale y_continuous (trans = 1og2_trans()， 
breaks = trans breaks 2", function(x) “^x), 
labels = trans_format ("10g2", math_format (2°.x))) 


我 们 也 可 以 只 使 用 一 条 对 数 坐 标 轴 。 这 种 做 法 对 于 呈现 金融 数据 往往 是 有 用 的 ， 因 为 
这 样 能 够 更 好 地 展示 出 按 比例 的 变化 。 图 8-30 分 别 使 用 了 线性 和 对 数 的 y 轴 来 展示 苹 
果 公 司 的 股价 变化 情况 。 默 认 的 刻度 线 间距 对 你 的 图 来 说 可 能 并 不 够 好 ， 可 以 在 标 度 
中 使 用 参数 breaks 来 设置 它们 : 
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library(gcookbook) # 为 了 使 用 数据 集 
ggplot (aapl, aes (x=date, y=adj_price)) + geom_line() 


ggplot (aapl, aes (x=date, y=adj ee + geom line() + 
scale y_log10 (breaks=c (2,10,50,250)) 








图 8-29 绘制 以 指数 形式 表示 的 刻度 标签 。 注 意 对 x 和 ? 分 别 使 用 了 不 同 的 底 

















图 8-30 上 图 : 使 用 线性 < 轴 和 对 数 7 轴 的 股价 图 下 图 : 手动 设置 刻度 位 置 的 股价 图 
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8.15 ”为 对 数 坐标 轴 添 加 刻度 


问题 
如 何 为 对 数 坐标 铀 添加 间距 递减 的 刻度 线 ? 


方法 


使 用 annotation_logticks () ( 见 图 8-31): 


library (MASS) 季 为 了 使 用 数据 集 
library(scales) 者 为 了 使 用 trans 和 format 相关 函数 
ggplot (Animals, aes(x=body, y=brain, label=rownames(Animals))) + 
geom_text (size=3) + 
annotation logticks() + 
scale x_logl0 (breaks = trans_breaks("10g10", function(x) 10°x), 
labels = trans_format ("10910", math format (1 "x))) + 
scale y_log10 (breaks = trans breaks("io910", function(x) 10°x), 
labels = trans format ("1og10", math format (lI”.x))) 




















图 8-31 
讨论 
使 用 annotation_logticks() 创建 的 刻度 线 事实 上 是 绘图 区 域 中 的 几何 对 象 。 在 每 个 
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10 的 寡 次 处 有 一 条 长 刻度 线 ， 在 每 个 5 的 位 置 处 有 一 条 中 等 长 度 的 刻度 线 ”。 
你 可 以 使 用 theme_bw() 让 刻度 线 和 网 格 线 的 颜色 更 协调 一 些 。 
默认 情况 下 ， 次 网 格 线 在 视觉 上 出 现在 两 条 主 网 格 线 的 正中 间 ， 但 这 与 对 数 标 度 下 表示 
“5” 的 刻度 线 位 置 并 不 相同 。 要 让 两 者 位 置 相同 ， 可 以 手动 设 定 标 度 的 minor_breaks 
参数 。 要 完成 这 里 的 任务 ， 我 们 需要 将 它们 设置 为 log10 (5*10^ (minpow:maxpow))， 也 
可 以 缩写 为 1og10(5) + minpow:maxpow〔 见 图 8-32): 

ggplot (Animals, aes(x=body, y=brain, label=rownames (Rnimals))) + 








geom text (size= ) + 
annotation_logticks() + 
scale x_logl0(breaks = trans breaks("i0910", function(x) 10^x)， 
labels = trans_format(" ", math_format (10.x)), 
minor breaks = log10(5) + -2:5) + 
scale y_logl0 (breaks = trans breaks("l0g10", function(x) 10°x), 
labels = trans_format ("logi0", math_format (10^.x))， 
minor breaks = 1og10(5) + -1:3) + 
coord fixed() + 
theme_bw () 
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body 
图 8-32 在 每 个 5 的 位 置 带 有 刻度 线 的 对 数 坐标 轴 ， 以 及 固定 的 坐标 比例 


另 见 
关于 控制 z 轴 和 >? 轴 缩放 比例 的 更 多 知识 ， 参 见 8.5 节 。 


@ 这 里 所 谓 5 的 位 置 ， 是 指 前 一 个 长 刻度 线 对 应 数值 5 倍 的 位 置 .一 一 译 者 注 
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8.16 ”绘制 环 状 图 形 
问题 

如 何 绘制 一 幅 环 状 图 形 ? 

方法 


使 用 coord_polar() 。 对 于 本 例 ， 我 们 将 使 用 gcookbook 包 中 的 wind 数据 集 。 它 包 
含 了 某 一 天 中 每 隔 5 分 钟 的 风速 和 风向 样本 。 风 向 每 隔 15° 被 分 到 一 个 组 中 ， 风 速 则 
按 每 5 ms 分 为 子 样本 : 


library (gcookbook) # 
wind 





数据 集 


TimeUTC Temp WindAvg WindMax WindDir SpeedCat DirCat 
0 3.54 9.52 10.39 89 10-15 90 
5 3.52 9.10 9.90 92 5-10 90 
10 3.53 8.73 9.51 92 5-10 90 


2335 6.74 18.98 23.81 250 >20 255 
2340 6.62 17.68 22.05 252 >20 255 
2345 6.22 18.54 23.91 259 >20 255 


我 们 将 使 用 geom_histogram() 对 每 个 SpeedCat 和 DirCat 的 类 别 绘 制 样本 数量 的 计 
数值 ( 见 图 8-33)。 我 们 将 binwidth 设置 为 15 以 使 直方 图 的 origin 开始 于 -7.5 的 位 
置 ， 这 样 每 个 扇形 就 会 居中 于 0、15、30 等 位 置 : 


ggplot (wind, aes(x=DirCat, fill=SpeedCat)) + 














geom_histogram{binwidth=15，origin=: ) + 
coord polar() + 
scale_x_continuous (limits=c (0, 350)) 
= 
a tectortspoecet 
Ee so 
时 0-15 
图 
> 
Drcat 
图 8-33 ” 极 坐 标 图 


外 circular graph， 在 这 里 作者 特 指 极 坐标 图 。 一 一 译 者 注 
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讨论 
使 用 极 坐标 图 时 要 小 心 ， 因 为 这 种 图 形 会 扭曲 对 数据 的 感知 。 本 例 中 ， 在 210" 的 位 置 有 
15 个 风速 为 15-20 的 观测 以 及 13 个 风速 大 于 20 的 观测 ， 但 是 对 图 形 匆匆 一 警 时 ， 看 起 来 
好 像 风 速 大 于 20 的 观测 更 多 一 些 。 而 且 还 存在 三 个 风速 10-15 的 观测 ， 它 们 却 几乎 不 可 见 。 


在 这 个 例子 中 ， 我 们 可 以 通过 反 转 图 例 、 使 用 不 同 的 调 色 板 、 添 加 外 框 线 以 及 将 分 割 
点 设置 为 某 些 更 熟悉 的 值 的 方式 ， 让 图 形 稍微 美观 一 些 〈 见 图 8-34): 


ggplot (wind，aes{x=DirCat，fill=SpeedCat)) + 
geom_histogram (binwidth=15，origin=-1.5，colour='t "size= .25) + 
guides (fill=guide_legend (reverse=TRUE)) + 
coord polar() + 
scale_x_continuous (limits=c(!, 560), breaks=seq(®, 31), by=*°), 

minor breaks=seq(%, %,, by=:°)) + 
scale_fill brewer() 
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图 8-34 ”使 用 不 同 颜色 和 分 割 点 的 极 坐标 图 


使 用 参数 start 设置 图 形 起 始 的 角度 可 能 也 是 有 用 的 ， 特 别 是 当 我 们 使 用 一 个 离散 型 
变量 映射 为 角度 〈theta) 时 "。 起 始 角度 的 值 以 弧度 计 ， 如 果 你 知道 要 调整 的 角度 ， 则 
必须 将 它 转换 为 弧度 : 


coord polar (start=-:: * pi / 150) 


极 坐标 可 与 其 他 几何 对 象 搭配 使 用 ， 包 括 线 和 点 。 在 使 用 这 些 几 何 对 象 时 有 一 些 重要 
的 问题 要 牢记 于 心 。 首 先 ， 默 认 情 况 下 ， 对 于 映射 到 (或 者 说 ~) 的 变量 ， 最 小 值 将 
被 映射 到 中 心 ; 换 句 话说 ， 数 据 中 的 最 小 值 将 被 映射 到 视觉 上 半径 为 0 的 位 置 。 你 可 








名 ”这 里 的 极 坐标 系 与 通常 的 定义 相同 ， 为 (r, )， 其 中 7 为 半径 ，6 为 角度 。 一 一 译 者 注 
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能 希望 一 个 为 0 的 数据 值 被 映射 到 半径 为 0 的 位 置 ， 但 是 为 了 确保 图 形 能 这 样 绘制 ， 
需要 设置 对 应 的 界限 〈limit)。 


下 一 个 问题 是 ， 在 使 用 一 个 连续 型 的 x (或 者 说 theta) 时 ， 数 据 中 的 最 小 值 和 最 大 值 是 重 
合 的 。 有 时 这 样 是 可 取 的 ， 有 时 却 不 是 。 要 修改 这 种 默认 行为 ， 你 需要 设置 对 应 的 界限 。 


最 后 ， 极 坐标 的 theta 值 不 能 环绕 一 周一 一 目前 还 无 法 制作 一 个 穿越 过 起 始 角度 (通常 
为 垂直 方向 ) 的 几何 对 象 。 


我 们 将 使 用 一 个 示例 来 曾 明 这 些 问题 。 以 下 代码 根据 时 间 序列 数据 集 mdeaths 创建 了 
一 个 数据 框 并 绘制 了 图 8-35 左 侧 的 图 形 : 


外 将 mdeaths 的 时 间 序列 数据 放 入 一 个 数据 框 
md <- data.frame (deaths = as.numeric (mdeaths), 
month = as.numeric (cycle (mdeaths))) 


志 计算 每 个 月 的 平均 死亡 数量 
library (plyr) # 为 了 使 用 ddply() 函数 
md <- ddply(md, "month", summarise, deaths = mean(deaths)) 


month deaths 
1 2129.833 
2 2081.333 


11 1377.667 
12 1796.500 


## 绘 制 基本 图 形 
p <- ggplot (md, aes(x=month, y=deaths)) + geom line() + 
scale_x_continuous (breaks=1:12) 


# 使 用 coord_polar 
Pp + coord_polar() 

















图 8-35 左 图 : 使 用 线 几 何 对 象 的 极 坐标 图 ( 注意 半径 代表 的 数据 范围 ) 右 图 : 半径 表示 的 
数据 范围 从 0 开始 
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第 一 个 问题 是 ， 数 据 的 值 (范围 大 约 是 1000 一 2100) 被 映射 为 半径 ， 于 是 最 小 的 数 
据 值 就 处 于 半径 为 0 的 位 置 。 我 们 将 通过 设置 y (或 者 说 r) 的 界限 为 从 0 到 数据 中 的 
最 大 值 来 解决 这 个 问题 ， 如 图 8-35 右 图 所 示 : 

# 使 用 coord_polar 并 将 y (r) 的 下 界 设置 为 0 

p + coord polar() + ylim(d, max(md$deaths)) 
下 一 个 问题 是 最 小 和 最 大 的 month (月 份 ) 值 1 和 12 被 展示 在 了 同样 的 角度 上 。 我 
们 将 通过 设置 x 的 界限 为 0 一 12 来 解决 这 个 问题 ， 绘 制 的 图 形 为 图 8-36 左 图 (注意 
xlim() 的 使 用 覆盖 了 p 中 的 scale_x_continuous () ， 所 以 它 将 不 再 为 每 个 月 份 显示 
分 割 点 ， 参 见 8.2 节 以 了 解 更 多 信息 ): 


p + coord polar() + ylim(0, max(md$deaths)) + xlim(0, 12) 


还 有 最 后 一 个 首尾 不 相 接 的 问题 。 要 解决 这 个 问题 ， 我 们 需要 修改 数据 框 ， 添 加 一 个 
月 份 为 0， 对 应 值 与 12 月 相同 的 行 。 这 将 使 得 起 点 和 终点 变 得 相同 ， 如 图 8-36 右 图 
所 示 或 者 ， 我 们 可 以 添加 一 个 13 月 ， 而 非 0 月 ): 

志 通过 添加 一 个 值 与 12 约 值 相同 的 0 来 连接 曲线 

mdx <- md[md$month==12, ] 


mdx$month <- 
mdnew <- rbind {mdx, md) 








关 通 过 使 用 $+ 各 ， 要 同 的 图 形 ， 只 是 使 用 的 数据 不 同 
Pp %+% mdnew + coord polar() + ylim(), max(md$deaths)) 
oF bp 
oo a0 n i 
tao ro- 
a 
om- 1 
m0 | 
i 站 : 
< 4 
7 站 
‘ 
room or 











图 8-36 左 图 : theta 表示 的 x 值 从 0 到 12 的 极 坐标 图 “ 右 图 : 通过 添加 一 个 虚拟 的 月 份 0 数 
据点 填补 了 缺口 


区 注意 运算 符 $+% 的 使 用 。 当 你 使 用 $+s 向 一 个 ggplot 对 象 添加 一 个 数据 
全 框 时 ， 它 会 替换 ggplot 对 象 中 的 默认 数据 框 。 在 本 例 中 ， 它 将 p 中 默认 
的 数据 框 从 md 改 为 了 mdnew。 
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另 见 
参见 10.4 节 了 解 更 多 关于 反 转 图 例 方位 的 信息 。 
参见 8.6 节 以 了 解 更 多 关于 指定 哪些 值 将 拥有 刻度 线 〈 分 割 点 ) 和 刻度 标签 的 方法 。 


8.17 ”在 坐标 轴 上 使 用 日 期 


问题 

如 何在 坐标 轴 上 使 用 日 期 ? 

方法 

将 一 列 类 为 Date 的 变量 映射 到 x 轴 或 ? 轴 即 可 。 本 例 中 我 们 将 使 用 econonics 数据 集 : 


4 观察 数据 
str (economics) 








"data,frame': 478 obs. of 6 variables: 

$date  : Date, format: "1967-06-30" "1967-07-31" ... 

$ pce : num 508 511 517 513 518 ... 

$ pop : int 198712 198911 199113 199311 199498 199657 199808 199920 ... 
$ psavert : nm 9.8 9.8 9 9.8 9.7 9.4 9 9.5 8.9 9.6 ... 

$ uempmed : num 4.5 4.7 4.6 4.9 4.7 4.8 5.1 4.5 4.1 4.6 ... 

$ unemploy: int 2944 2945 2958 3143 3066 3018 2878 3001 2877 2709 ... 


date 列 是 一 个 类 为 Date 的 对 象 ， 将 其 映射 到 x 所 得 的 结果 如 图 8-37 所 示 : 


ggplot (economics, aes(x=date, y=psavert)) + geom_line() 











图 8-37 在 x 轴 上 显示 日 期 

讨论 

ggplot2 可 以 处 理 两 类 时 间 相 关 的 对 象 : 日 期 对 象 〈( 类 为 Date 的 对 象 ) 和 日 期 时 间 对 
象 〈 类 为 PosIXt 的 对 象 )。 两 类 对 象 的 区 别 是 ，Date 对 象 表示 的 是 日 期 ， 分 辩 率 为 一 
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天 ， 而 PosIXt 对 象 则 表示 时 刻 ， 拥 有 精确 到 秒 的 小 数 部 分 的 分 辩 率 "。 


设置 分 割 点 与 数值 坐标 轴 的 方式 类 似 一 一 主要 的 不 同 在 于 设置 所 要 使 用 的 日 期 序列 。 
这 里 我 们 将 使 用 economics 数据 集 从 1992 年 年 中 到 1993 年 年 中 的 一 个 子 集 。 如 果 未 
指定 分 割 点 ， 则 将 自动 选择 ， 如 图 8-38 上 图 所 示 : 


# 取 economics 的 一 个 子 集 
econ <- subset (economics，date >= as.Date("1992 
date < as.Date( 





## 基本 图 形 一 一 不 指定 分 割 点 
p <- ggplot (econ, aes (x=date, y=psavert)) + geom line() 
P 

















图 8-38 上 图 : 使 用 默认 的 x 轴 分 割 点 “下 图 : 使 用 指定 的 分 割 点 
分 割 点 可 使 用 函数 seq() 来 创建 ， 给 定 起 始 和 终止 日 期 和 一 个 步 长 区 间 〈 见 图 8-38 下 
图 ) 即 可 : 

单 指定 一 个 日 期 向 量 为 分 割 点 


datebreaks <- seq(as.Date("1992 





06-01"), by="2 month") 
# 使 用 分 割 点 并 旋转 文本 标签 
p + scale x date(breaks=datebreaks) + 


theme (axis.text .x = element text (angle=30, hjust=!)) 


回 在 R 中 使 用 $OSn 可 以 表示 带 有 小 数 部 分 的 秒 数值 ， 更 多 细节 详 见 ?strptime 中 的 说 明 。 一 一 译 者 注 
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注意 ， 这 里 分 割 点 标签) 的 格式 发 生 了 改变 ， 可 以 通过 使 用 scales 包 中 的 date_ 
format () 函数 来 指定 格式 。 这 里 我 们 将 使 用 "sY $b"， 结 果 的 格式 类 似 于 “1992 
Jun”， 如 图 8-39 所 示 ": 

library (scales) 


p + scale x date (breaks=datebreaks, labels=date format ("$Y ab")) + 
theme (axis.text .x = element_text (angle=>), hjust=;)) 





er 





PY 
date 








图 8-39 ”指定 了 日 期 格式 的 折线 图 

常用 的 日 期 格式 选项 列 于 表 8-1 中 。 它 们 应 被 放 入 一 个 字符 串 中 传递 给 date_ 
format ()， 然 后 这 些 格式 说 明 符 就 会 被 合适 的 值 所 替换 。 举 例 来 说 ， 如 果 你 使 用 "$B 
%d，%Y"， 所 得 的 标签 将 类 似 于 “June 01, 1992”。 


表 8-1 日 期 格式 选项 


含 世 纪 的 年 份 2012) 
%y 不 含 世纪 的 年 份 (12) ” 











gm 十 进 制 数 表示 的 月 份 《08) 
%b | 当前 区 域 设置 (locale》 的 月 份 名 缩写 (Aug) 

$B 当前 区 域 设置 的 月 份 名 全 称 〔August) 

gd 十 进 制 数 表示 的 月 份 中 的 日 期 (04) 

$0 | 十 进 制 数 表示 的 一 年 中 的 第 几 周 ， 星 期 日 作为 每 周 的 第 一 天 00-53) 
SW | 十进制 数 表示 的 一 年 中 的 第 几 周 ， 星 期 一 作为 每 周 的 第 一 天 〈00-53) 
Sw 星期 几 (0-6， 星 期 日 为 0) 























$a 星期 几 的 缩写 名 Thu) 
星期 几 的 全 称 (Thursday) 








@@ 中 文 (系统 ) 的 日 期 时 间 格式 下 ， 输 出 结果 的 格式 将 为 “1992 6 月 "。 要 显示 为 此 处 的 英文 格式 ， 使 
用 Sys.setlocale() 修改 环境 变量 LC_TIME 即 可 。 详 见 http://cos.name/en/topic/109881。 关 于 区 域 设置 
的 更 多 说 明 ， 请 参见 下 文 。 一 一 译 者 注 
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以 上 选项 中 的 一 部 分 依赖 于 计算 机 的 区 域 设置 (locale)。 月 份 和 日 期 在 不 同 的 语言 中 
会 有 不 同 的 名 称 〈 本 示例 是 使 用 美式 区 域 设置 生成 的 )。 可 以 使 用 Sys . setlocale () 
来 修改 区 域 设置 。 例 如 ， 以 下 代码 会 将 日 期 的 格式 修改 为 使 用 意大利 的 区 域 设置 : 


# Mac 和 Linux 
Sys.setlocale ("LC TIME", "it_IT.UTF-8") 





# Windows 
Sys.setlocale ("LC TIME", "italian") 


注意 ， 区 域 的 名 称 可 能 视 平台 的 不 同 而 有 所 区 别 ， 并 且 你 的 计算 机 必须 支持 这 些 在 操 
作 系 统 层面 已 经 安装 的 区 域 设置 。 


另 见 
参见 ?Sys .setlocale 了 解 更 多 关于 如 何 设 定 区 域 设置 的 信息 。 
参见 ?strptime 以 了 解 关于 如 何 将 字符 串 转换 为 日 期 以 及 格式 化 日 期 输出 的 信息 。 


8.18 在 坐标 轴 上 使 用 相对 时 间 


问题 

如 何在 坐标 轴 上 使 用 相对 时 间 ? 

方法 

时 间 值 通常 以 数字 的 形式 存储 。 举 例 来 说 ， 钟 表 上 的 时 刻 能 够 以 一 个 表示 小 时 的 数字 来 

存储 。 时 间 也 能 以 从 某 个 起 始 时 间 经 过 的 分 钟 数 或 秒 数 来 存储 。 在 这 些 情 况 下 ， 你 应 当 

将 一 个 值 映射 到 x 轴 或 y 轴 上 ， 并 使 用 一 个 格式 刷 来 生成 合适 的 坐标 轴 标 签 〔 见 图 8-40): 
单 转换 时 间 序列 对 象 WNWusage 为 数据 框 


www <- data. frame (minute = as.numeric (time (WiWusage)), 
users = as.numeric (WhWusage)) 


# 定义 一 个 格式 刷 函 数 一 可 将 以 分 钟表 示 的 时 间 转 换 为 字符 串 
timeHM formatter <- function(x) { 

h <- floor(x/50) 

m <- floor(x $% 50) 





lab <- sprintf("%d:402d"，h，,m) 凶 将 字符 串 格式 化 为 BB:MM (时 ; 分 ) 的 格式 
return (1ab) 

} 

# 歌 认 的 x 办 

ggplot (www, aes(x=minute, y=users)) + geom line() 

志 使 用 检 式 化 后 的 时 间 

ggplot (www，aes (X=minute，y=UserS)) + geom line() + 
scale x_continuous (name="time", breaks=seq (0, , by=10), 


labels=timeHM formatter) 


@ 00 ~ 68 的 前 组 将 被 补充 为 20，69 一 99 的 前 级 将 被 补充 为 9。 详情 参 见 ?strptime 中 对 于 sy 的 说 
明 。 一 一 译 者 注 
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图 8-40 上 图 : x 轴 上 的 相对 时 间 下 图 : 使 用 格式 化 后 的 时 间 
讨论 
在 某 些 情况 下 ， 手 动 指定 分 割 点 和 标签 可 能 会 简单 一 些 ， 就 像 这 样 : 


scale x_continuous (breaks=c (I, 20, 40, 6 , 
labels=c ("0:00", :20", "0:40", "1: ob", 


在 前 面 的 示例 中 ， 我 们 使 用 了 函数 timeHM_formatter () 来 将 数值 时 间 ( 以 分 钟表 示 ) 
转换 为 一 个 类 似 于 "1:10" 的 字符 刘 


timeHM_formatter(c(C，51，51， 






)， 
:20", "1:40")) 





130, 504)) 





"0:00" "0:50" "0:51" "0:59" "1:00" "2:10" "10:04" 


要 将 其 转换 为 HH:MM:SS( 时 时 : 分 分 : 秒 秒 ) 的 格式 ， 你 可 以 使 用 以 下 格式 刷 函数 : 


timeHMS_formatter <- function(x) { 
h <= floor (x/3500) 
m <~ floor((x/55) $%% 00) 
Ss <- round(x %% $0 
lab <- sprintf("Wn 
lab <- sub("'0 
lab <- sub("*0", 
return (lab) 

} 


使 用 一 些 示 例 数值 运行 它 会 得 到 : 


timeHMS_formatter (c(2°, 3700, 3075, 










所 会 
$02d: $02d", h, m, s) #4 哲 
# 如 
# 如 





"0:20" "50:00" "51:15"” "59:19" "1:00:00" "1:00:06" "2:10:14" 


另 见 
参见 15.21 节 以 了 解 关于 如 何 转换 时 间 序列 对 象 为 数据 框 的 信息 。 
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控制 图 形 的 整体 外 观 


在 本 章 中 ， 我 们 将 讨论 如 何 控制 ggplot2 图 形 的 整体 外 观 。 作 为 ggplot2 的 基础 ， 图 形 
语法 关注 的 是 如 何 处 理 和 展示 数据 一 一 它 并 不 关注 如 字体 、 背 景色 等 问题 。 然 而 当 我 
们 呈现 自己 的 数据 时 ， 很 可 能 希望 去 调整 这 些 元 素 的 外 观 。ggplot2 的 主题 就 为 控 
制 非 数据 元 素 的 外 观 提供 了 可 能 。 我 们 在 前 一 章 中 提 到 了 主题 系统 ， 在 这 一 章 中 我 们 
将 更 加 详细 地 解释 它 的 工作 原理 。 


9.1 设置 图 形 标题 

问题 

如 何 设置 一 幅 图 形 的 标题 ? 

方法 

使 用 ggtitle() 设置 标题 ， 如 图 9-1 所 示 : 


library (gcookbook) 










t, aes(x=ageYear, y: + geom point () 





p <- ggplot (h 








讨论 
使 用 ggtitle() 与 使 用 labs (title =" 标题 文本 ") 是 等 价 的 。 
如 果 你 希望 将 标题 移动 到 绘图 区 域内 部 ， 可 以 使 用 以 下 两 种 方法 之 一 ， 这 两 种 方法 都 
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这 种 方法 的 缺点 是 在 绘图 区 域 的 上 方 仍 然 会 留 有 空白 的 空间 。 





点 技巧 ( 见 图 9-2)。 第 一 种 方法 是 将 一 个 负 的 vjust 值 与 ggtitle() 配合 使 用 。 





Age and Height of Schoolchildren Age and Height 




















Eee 


9-2 左 图 : 使 用 ggtitle() 和 一 个 负 的 vjust 值 绘制 的 标题 ( 注意 绘图 区 域 上 方 的 额外 空间 ) 


右 图 : 在 图 形 的 顶部 使 用 一 个 文本 注解 


第 二 种 方式 则 是 使 用 一 个 文本 注解 ， 设 定 其 x 的 位 置 为 x 值 域 的 中 间 ，y 的 位 置 为 
Inf， 这 样 就 会 将 其 置 于 绘图 区 域 的 顶部。 这 种 方法 同时 需要 vjust 为 正 值 ， 以 使 文 


本 完全 落 入 绘图 区 域 : 
# 移动 部 

p + ggtitle( ) + 
theme (plot .title=element_text (vjust = )) 





# 或 使 用 一 个 文本 型 注解 
Pp + annotate( ,x=mean (range (heightweight$ageYear)), y=Inf, 
label= ,vjust=1 .5, size= 


控制 图 形 的 整体 外 观 


9.2 ”修改 文本 外 观 


问题 
如 何 修改 图 形 中 文本 的 外 观 ? 


方法 

要 设置 如 标题 、 坐 标 轴 标签 和 坐标 轴 刻 度 线 等 主题 项 目 〈theme item) 的 外 观 ， 使 用 

theme () 并 通过 element_text () 设 定 对 应 项 目的 属性 即 可 。 举 例 来 说 ，axis,title. 

x 控制 着 x 轴 标 签 的 外 观 ， 而 plot .title 则 控制 着 标题 文本 的 外 观 〈 见 图 9-3 左 图 ): 
library(gcookbook) # 为 了 使 用 数据 集 


# 基本 图 形 
p <- ggplot (heightweight, aes(x=ageYear, y=heightIn)) + geom_point () 


# 主题 项 目 外 观 的 控制 
P + theme(axis.title.x=element_text (size=’,, lineheight=. 3, family=" 


face= ", colour="red")) 
p + ggtitle("sge and 
theme (plot.title=element_text (size=rel(: “), lineheight=.3, family= 有 
face="boli. iralic", colour="red")) 


# rel (1.5) 表示 字体 大 小 将 为 当前 主题 基准 字体 大 小 的 1.5 售 

## 对 于 主题 元 素来 说 ， 字 体 大 小 〈size) 的 单位 为 确 (pt) 
要 设置 文本 几何 对 象 《 即 在 图 形 内 部 使 用 geom_text () 或 annotate () 添加 的 文本 ) 
的 外 观 ， 只 需 设置 其 文本 属性 即 可 。 举 例 来 说 〈 见 图 9-3 右 图 ): 


p + annotatel ,x=1:, y=73, label=" ", size = 7, family= . 
fontface="t ", colour=" ce") 
P + geom text (aes (label=weightLb), size=;, family="7ines", colour="r 人) 


砷 对 于 文本 几何 对 泉 ， 字 体 大 小 的 单位 为 毫米 (mm) 
讨论 
在 ggplot2 中 ， 文 本 项 目 分 为 两 类 : 主题 元 素 和 文本 几何 对 象 。 主 题 元素 包 括 图 形 


中 的 所 有 非 数据 元 素 : 如 标题 、 图 例 和 坐标 轴 。 文 本 几何 对 象 则 属于 图 形 本 身 的 一 
部 分 。 


控制 两 类 文本 项 目 属性 的 参数 略 有 不 同 ， 如 表 9-1 所 示 。 
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family family Helvetica (无 衬 线 )、Times ( )、Courier 〈 等 宽 ) 

ee fontface | Plain (普通 )、 bold ( 粗 体 )、italic (斜体 )、 bold.italic ( 粗 
斜体 ) 

colour colour 文字 颜色 (颜色 名 称 或 "#RRGGBB" 形式 的 十 六 进 制 颜色 代码 ) 

size size 字体 大 小 〈 主 题 元 素 的 单位 是 磅 ， 几 何 对 象 的 单位 是 毫米 ) 

hjust hjust | 横向 对 齐 ;0= 左 对 齐 ，0.5= 居中 ， 上 = 右 对 齐 

vjust Vjust 纵向 对 齐 : 0= 底部 对 齐 ，0.5= 居中 ，1= 顶部 对 齐 

angle angle 旋转 角度 ， 单 位 为 度 

lineheight |1ineheight | 行 间距 倍数 

















agelear agevear 


4ge and Height ao 
of Schoolchildren m pe 3 
Ea p 














图 9-3 ”从 左上 图 开始 逆 时 针 方向 : 分 别 对 axis.title.x、plot.title、geom_text () 和 
annotate ("text") 进行 了 设置 


相应 的 主题 元 素 已 列 于 表 9-2 中 ， 其 中 大 多 数理 解 起 来 都 很 简单 直观 。 图 9-4 中 展示 
了 一 部 分 。 
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表 9-2 ”theme () 中 控制 文本 外 观 的 主题 项 目 















































axis.title 双 轴 标签 的 外 观 
axis.title.x * 轴 标签 的 外 观 
axis.title.y 了 轴 标签 的 外 观 

axis.ticks 双 轴 刻度 标签 的 外 观 
axis.ticks.x x 轴 刻 度 标签 的 外 观 
axis.ticks.y 了 轴 刻 度 标签 的 外 观 
legend.title 图 例 标题 的 外 观 
legend,. text 图 例 项 文本 的 外 观 

Plot.title 图 形 总 标题 的 外 观 

strip.text 双向 分 面 标签 的 外 观 
strip.text.x 横向 分 面 标签 的 外 观 
strip.text.y 纵向 分 面 标签 的 外 观 











2 
x 








图 9-4 使 用 hjust 和 vjust 进行 对 齐 ， 并 使 用 lineheight 调整 行 间距 


9.3 ”使 用 主题 


问题 

如 何 使 用 预制 主题 来 控制 图 形 的 整体 外 观 ? 

方法 

要 使 用 预制 的 主题 ， 向 图 形 添加 theme_bw() 或 theme_grey() 即 可 〈 见 图 9-5): 
library(gcookbook) # 为 了 使 用 数据 集 


# 基本 图 形 
Pp <- ggplot (heightweight, aes(x=ageYear, y=heightIn)) + geom_point () 


# 《默认 的 ) 灰色 主题 
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p + theme_grey() 


地 黑白 主题 
P + theme_bw() 





heghtin 





下 下 
agevear 








ageyear ” 


图 9-5 左 图 : 使 用 theme_grey() (默认 主题 ) 绘制 的 散 点 图 右 图 : 使 用 theme_bw() 绘制 
的 散 点 图 


讨论 
ggploC 中 主题 元 素 的 某 些 常用 属性 是 通过 theme () 来 控制 的 。 其 中 的 多 数 属性 ， 如 标题 、 图 
例 和 坐标 轴 ， 位 于 绘图 区 域 的 外 部 ， 但 另 一 些 则 位 于 绘图 区 域 的 内 部 ， 如 网 格 线 和 背景 色 。 
ggplot2 的 两 套 自 带 主题 是 theme_grey() 和 theme_bw () ， 不 过 你 也 可 以 创建 自己 的 专属 
主题 。 
你 可 以 自行 设置 两 个 内 置 主题 的 基本 字体 和 字体 大 小 〈 默 认 的 基本 字体 为 无 衬 线 的 
Helvetica， 默 认 大 小 为 12): 

p + theme grey(base size=15，base_fanily="Timesn) 


你 可 以 使 用 theme_set () 设置 当前 R 会 话 下 的 默认 主题 : 
# 为 当前 会 话 设置 默认 主 是 
theme_set (theme_bw()) 





着 将 使 用 theme_bw() 
Pp 


# 将 默认 主题 重 置 回 theme_grey() 
theme_set (theme grey()) 
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另 见 

要 修改 一 套 主题 ， 参 见 9.4 节 。 

要 创建 一 套 自 定义 主题 ， 参 见 9.5 节 。 
查看 ?theme 以 了 解 所 有 可 用 的 主题 属性 。 


9.4 ”修改 主题 元 素 的 外 观 


问题 

如 何 修改 主题 元 素 的 外 观 ? 

方法 

要 修改 一 套 主题 ， 配 合 相应 的 element_xx 对 象 添 加 theme () 函数 即 可 。element_xx 
对 象 包括 element_line、element_rect 以 及 element_text。 下 列 代码 展示 了 许多 常 
用 主题 属性 的 修改 方法 〈 见 图 9-6); 


library (gcookbook) # 为 了 使 用 数据 集 


## 基本 图 形 
P <- ggplot (heightweight, aes(x=ageYear, y=heightIn, colour=sex)) + geom point() 


# 给 图 区 域 的 选项 

p + theme( 
panel.grid.major = element_line (colour 
panel.grid.minor = element line (colour: 
panel.background = element rect (fill="1i 
panel.border = element_rect (colour="blue", fill=NA, size=2)) 





入 文本 项 目的 选项 

p + ggtitle(" 四 + 
theme ( 
axis,title.x = element _text (colou 
axis.text.x = element_text (colour: 








axis.title.y = element _text (colour="red", size=14, angle = 50)， 
axis.text.y = element_text (colour="blue"), 
plot.title = element text (colour="red", size=’), face="bold")) 
志 图 例 选 项 
p + theme( 





legend.background = element_rect (fill=" 
legend.title = element text (colour= 
legend.text = element text (colour: 
legend.key = element_rect (colour=" 








## 分 面 选项 

p+ facet_grid(sex ~ .) + theme( 
strip.background = element rect (fill="p 
strip. text.y = element text (size=;, angle=-%), face=" 
# strip.text.x 同 理 ， 只 不 过 是 针对 横向 分 面 
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图 9-6 ”从 左上 图 开始 顺 时 针 方向 : 修改 绘图 区 域 、 图 例 、 分 面 和 文本 项 目的 主题 属性 


讨论 
如 果 你 希望 使 用 一 套现 成 的 主题 并 使 用 theme () 微调 其 中 的 一 些 部 分 ， 则 theme () 
必须 接 在 指定 主题 的 语句 之 后 。 否 则 ， 任 何 theme () 的 设 定 都 将 被 你 添加 的 主题 所 
还 原 : 

# 如 果 在 添加 一 套 完整 的 主题 之 前 使 用 ，theme () 将 没有 效果 


p + theme(axis.title.x = element text (colour="red")) + theme bw() 


# 在 完整 的 主题 后 使 用 ，theme () 可 以 正常 工作 
p+ theme bw() + theme (axis.title.X = element text (colour="red", size= )) 


许多 常用 的 主题 属性 列 于 表 9-3 中 。 
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所 有 文本 元 素 





element text () 

























































































rect 所 有 和 矩形 元 素 element_rect () 

line 所 有 线条 元 素 element line() 

axis.line 坐标 轴线 element line() 

axis.title 双 轴 标签 的 外 观 element text () 

axis.title.x 轴 标 签 的 外 观 element_text () 

axis.title.y 了 轴 标 签 的 外 观 element _ text () 

axis.text 双 轴 刻度 标签 的 外 观 element text() 

axis.text.x 工 轴 刻 度 标 签 的 外 观 element_text () 

axis.text.y 了 轴 刻 度 标签 的 外 观 element text() 

legend.background | 图 例 的 背景 element rect() 

legend. text 图 例 项 文本 的 外 观 element_text () 

legend. title 图 例 标题 的 外 观 element_text () 

legend.position | 图 例 的 位 置 "left"〈 左 侧 )、"right"〈 右 侧 )、 
"bottom" (下 方 )、"top" (上 方 )， 
若 希望 放置 在 绘图 区 域内 部 ， 则 需 指定 一 
个 双 元 素数 值 向 量 〈 关 于 放置 图 例 的 更 多 
知识 ， 参 见 102 节 ) 

panel.background | 绘图 区 域 背景 element rect () 

Panel.border 绘图 区 域 周围 的 边框 element rect (linetype="dashed") 

panel.grid.major | 主 网 格 线 element_line() 

panel.grid.major.x | 纵向 主 网 格 线 element line() 

panel.grid.major.y | 横向 主 网 格 线 element line() 

panel.grid.minor | 次 网 格 线 element line() 

panel.grid.minor.x | 纵向 次 网 格 线 element line() 

panel.grid.minor.y | 横向 主 网 格 线 element line() 

plot .background “| 整个 图 形 的 背景 element_rect (fill = "white", 
colour = NA) 

plot.title 标题 文本 的 外 观 element text() 

strip.background | 分 面 标签 的 背景 element rect() 

strip.text 各 内 和 疹 向 分 硬 标 颖 的 之 element text() 

本 外 观 a 
strip.text.x 横向 分 面 标签 的 文本 外 观 |element_text () 
strip.text.y 纵向 分 面 标签 的 文本 外 观 |element text () 
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9.5 ”创建 自 定义 主题 
问题 

如 何 创建 自 定义 主题 ? 
方法 

你 可 以 通过 向 一 套现 成 主 


library(gcookbook) 幸 为 


添加 元 素 的 方式 创建 自 定义 主题 ( 见 图 9-7); 








使 用 数据 集 





# 从 theme_bw() 入 手 ， 修 改 节 
mytheme <- theme bw() + 

theme (text = element_text (colour="red"), 

axis.title = element text (size = rel(1.25))) 

# 基本 图 形 
p <- ggplot (heightweight, aes(x=ageYear, y=heightIn)) + geom point() 
# 使用 修改 后 的 主题 绘图 
p + mytheme 

















图 9-7 ”一 套 修 改 后 的 默认 主题 


讨论 

使 用 ggplot2， 不 仅 可 以 直接 利用 默认 主题 ， 也 可 以 修改 这 些 主题 以 满足 你 的 需求 。 可 
以 添加 新 的 主题 元 素 或 者 修改 现 有 的 值 ， 并 将 修改 全 部 应 用 到 多 幅 图 形 或 者 只 应 用 到 
单 幅 图 形 上 。 
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另 见 
主题 的 可 修改 选项 列 于 9.4 节 中 。 


9.6 ”隐藏 网 格 线 


问题 

如 何 隐藏 图 中 的 网 格 线 ? 

方法 

主 网 格 线 〈 与 刻度 线 对 齐 的 那些 ) 可 通过 panel.grid.major 来 控制 ， 次 网 格 线 〈 位 
于 主 网 格 线 之 间 的 那些 ) 则 通过 panel.grid.minor 来 控制 。 以 下 代码 将 二 者 同时 隐 
藏 ， 如 图 9-8 左 图 所 示 : 


library (gcookbook) ## 为 了 使 用 数据 集 
p <- ggplot (heightweight，aes (x=ageyear，y=heightIn)) + geom point() 


p + theme (panel.grid.major = element_blank(), 
panel.grid.minor = element_blank()) 














图 9-8 左 图 : 无 任何 网 格 线 中 图 : 无 纵向 网 格 线 右 图 : 无 横向 网 格 线 


讨论 
通过 使 用 panel.grid.major.x、panel.grid.major.y、panel.grid.minor.x 和 panel. 
grid.minor.y， 我 们 也 可 以 只 
所 隐藏 谍 疝 网 
p + theme(panel.grid.major.x = element blank(), 
panel.grid.minor.x = element blank()) 








# 隐藏 模 向 网 格 线 (与 的 那些 ) 
p + theme (panel.grid.major.y = element_blank()， 


panel.grid.minor.y = element blankf)) 














像 x 轴 或 y 轴 一 样 ， 图 例 也 是 一 类 引导 元 素 : 它 可 以 向 人 们 展示 如 何 将 视觉 上 的 《图 
形 ) 属性 映射 回 数据 本 身 。 


10.1 移 除 图 例 


问题 

如 何 从 一 幅 图 中 移 除 图 例 ? 

方法 

使 用 guides () ， 并 指定 需要 移 除 图 例 的 标 度 〔 见 图 10-1): 


李 基本 图 形 ( 会 图 例 ) 
p <- ggplot (PlantGrowth, aes(x=group, y=weight, fill=group)) + geom boxplot() 





60- : 60- 
> > 
55 group 55 
5.0- 中 co 50 
CE 
4.5— = [= 45 


weight 


weight 


40 40- 


3.5 t T 3.5- f 1 1 
cl tr tr oil wrtt tri2 
group group 











图 10-1 左 图 : 默认 外 观 右 图 : 移 除 图 例 后 的 外 观 
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P 


间 移 除 标 度 fi11 的 图 例 
P + guides (fill=FALSE) 


讨论 
移 除 某 个 图 例 的 另 一 种 方式 是 在 对 应 标 度 中 设置 guide=FALSE。 这 样 做 得 到 的 输出 结 
果 将 与 上 述 代码 完全 相同 ; 

直 移 除 标 度 fill 的 图 合 

p + scale fill discrete(guide=FALSE) 


还 有 一 种 移 除 图 例 的 方法 是 使 用 主题 系统 。 如 果 你 有 多 于 一 种 带 有 图 例 的 图 形 属性 映 
射 (例如 color 和 shape)， 这 样 做 将 会 移 除 所 有 图 例 : 


p + theme (legend.position="nons") 
有 些 时 候 图 例 是 元 余 的 ， 或 者 图 例会 在 另 一 幅 和 当前 图 形 共同 展示 的 图 形 中 提供 。 在 
这 种 情况 下 ， 从 一 幅 图 形 中 移 除 图 例会 比较 有 用 。 


在 本 例 中 ， 颜 色 提供 了 和 x 轴 相 同 的 信息 ， 所 以 没有 必要 添加 图 例 。 还 可 以 注意 到 ， 
随 着 图 例 的 移 除 ， 绘 制 数据 的 区 域 也 随 之 变 得 更 大 。 如 果 你 希望 得 到 与 之 前 比例 相同 
的 绘图 区 域 ， 则 需要 调整 图 形 的 整体 尺寸 。 


当 某 个 变量 被 映射 到 图 形 属性 fi11 上 时 ， 默 认 使 用 的 标 度 为 scale_fill discrete() 
(与 scale_fill_hue() 等 价 )， 这 会 将 不 同 的 因子 水 平 映射 到 色 环 上 均匀 分 布 的 颜色 
值 上 。 对 于 fill 来 说 ， 也 有 其 他 的 标 度 可 用 ， 如 scale_fill_manual () 。 如 果 你 要 
使 用 其 他 图 形 属性 的 标 度 ， 如 colour (针对 线 和 点 ) 或 shape (针对 点 )， 则 必须 使 
用 合适 的 对 应 标 度 。 常 用 的 标 度 包括 : 


。 scale fill discrete() 
scale_fill hue() 
scale_fill manual () 
scale_fill grey() 
scale_fill brewer() 
scale_colour discrete() 
scale_colour hue() 
scale_colour manual() 


scale_colour grey() 

。 scale colour brewer() 
。 scale_ shape manual () 
。 scale linetype() 
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10.2 ”修改 图 例 的 位 置 
问题 
如 何 将 默认 处 于 右 侧 的 图 例 移 动 到 其 他 位 置 ? 


方法 


使 用 theme (legend.position=...) 即 可 。 通 过 指定 位 置 参数 为 top、left、right 或 
bottom， 图 例 即 可 被 放置 在 项 部、 左 侧 、 右 侧 或 底部 〈 见 图 10-2 左 图 ): 


p <- ggplot (PlantGrowth, aes(x=group, y=weight, fill=group)) + geom boxplot() + 
scale_fill brewer(palette="Pastel2") 


p + theme (legend.position="top") 


group 鲜 orl 馈 rt 所 rz 60- : 
55- 
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| 
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Ctrl trt1 trt2 ctrl trtt trt2 
group group 











图 10-2 左 图 : 位 于 顶部 的 图 例 右 图 : 位 于 绘图 区 域内 的 图 例 


通过 指定 像 legend .position=c (1,0) 这 样 的 位 置 坐标 ， 图 例 亦 可 被 置 于 绘图 区 域内 
部 ( 见 图 10-2 右 图 )。 坐 标 空间 左下 角 为 原点 (0, 0)， 右 上 角 为 (1, 1)。 

讨论 

你 也 可 以 使 用 legend .justification 来 指定 图 例 框 的 哪 一 部 分 被 放置 到 legend . 


position 所 指定 的 位 置 上 。 默 认 情 况 下 ， 图 例 的 中 心 (0.5, 0.5) 被 置 于 给 定 的 坐标 处 ， 
但 是 指定 一 个 不 同 的 点 往往 是 有 用 的 。 


举例 来 说 ， 以 下 代码 将 图 例 的 右 下 角 (1, 0) 置 于 绘图 区 域 的 右 下 角 (1, 0) : 


p + theme (legend.position=c(1,)), legend.justification=c(;,0)) 


而 以 下 代码 则 会 将 图 例 的 右上 角 置 于 绘图 区 域 的 右上 角 ， 如 图 10-3 右 图 所 示 : 


p + theme (legend.position=c(i,1)，1legend.justification=c(1,I)) 
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图 10-3 左 图 : 位 于 右 下 角 的 图 例 右 图 : 位 于 右上 角 的 图 例 


在 绘图 区 域内 放置 图 例 时 ， 添 加 一 个 不 透明 的 边界 使 其 与 图 形 分 开 可 能 会 有 所 帮助 
( 见 图 10-4 左 图 ): 








p + theme (legend.position=c(,35,.7)) + 
theme (legend.background=element_rect (fill="white", colour=" ")) 
你 也 可 以 移 除 图 例 元 素 周围 的 边界 以 使 其 融入 图 形 〈 见 图 10-4 右 图 ): 
p + theme(legend.position=c(.35, .2)) + 
theme (legend.background=element_ blank()) + 扫 移 除 束 
theme (legend. key=element_blank()) 是 移 除 每 
60- 和 60 > 
55- 55- 
和 疤 
束 0- 和 - 
5 group 45- group 
印 cn 外 sm 
40- [=P 40- 外 im 
3.5- > Gb 3.5- ¥ 暂 Wt 
ctrl trt1 tt2 ctrl trt1 trt2 
group group 











图 10-4” 左 图 : 带 有 不 透明 背景 和 外 框 线 的 图 例 “ 右 图 : 不 含 背 景 和 外 框 线 的 图 例 


10.3 修改 图 例 项 目的 顺序 
问题 
如 何 修改 图 例 中 项 目的 顺序 ? 
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方法 


将 对 应 标 度 的 参数 limits 设置 为 理想 的 顺序 即 可 〈 见 图 10-5): 
# 基本 图 形 
p <- ggplot (PlantGrowth, aes(x=group, y=weight, fill=group)) + geom boxplot() 
p 
参 修改 项 目 版 序 
p + scale_fill discrete(limits=c("trtl", "crt2", "ctr1")) 
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图 10-5 左 图 : 默认 的 图 例 顺序 右 图 : 修改 后 的 顺序 
讨论 
要 注意 的 是 ，x 轴 上 项 目的 顺序 并 没有 改变 。 要 修改 这 个 顺序 ， 需 要 设置 scale_x_ 
discrete() 的 limits 参数 (参见 8.4 节 )， 或 者 修改 数据 ， 使 其 拥有 一 个 不 同 的 因子 
水 平顺 序 (参见 15.8 节 )。 
在 上 例 中 ， 变 量 group 被 映射 到 了 图 形 属性 fi11 上 。 默 认 情况 下 ， 这 将 会 使 用 scale_ 
fill discrete() (与 scale_fill_hue() 的 情况 相同 )， 将 不 同 的 因子 水 平 映射 到 色 环 
上 均匀 分 布 的 颜色 值 上 。 然 而 ， 我 们 也 可 以 使 用 其 他 的 不 同 标 度 scale_fil1_xxx()。 
举例 来 说 ， 我 们 可 以 使 用 灰 度 调 色 板 〈 见 图 10-6 左 图 ): 

p + scale fill grey(start=.5, end=;, limits=c("rrti®, "trt2", " ")) 
或 者 使 用 RColorBrewer 中 的 调 色 板 〈 见 图 10-6 右 图 ): 

P + scale fill brewer (palette=" el2", limits=c("trti", "trt2", "ctrl")) 


前 述 所 有 示例 都 是 针对 图 形 属性 fi11 的 。 如 果 要 使 用 其 他 图 形 属性 的 标 度 ， 如 colour 
(针对 线 和 点 ) 或 shape( 针 对 点 )， 则 必须 使 用 合适 的 对 应 标 度 。 常 用 的 标 度 包括 : 


。 scale fill discrete() 





图 例 189 





。 scale_fill_hue() 

。 scale fill manual () 
。 scale fill grey() 

。 scale fill brewer() 
。 scale colour discrete() 
。 scale colour hue() 

。 scale colour manual() 
。 scale colour grey() 
。 scale colour brewer() 
。 scale shape manual () 
。 scale linetypel() 
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图 10-6 左 图 : 使 用 灰 度 调 色 板 并 修改 顺序 “ 右 图 : 使 用 RColorBrewer 中 的 调 色 板 
默认 情况 下 ， 使 用 scale_fill_discrete() 与 使 用 scale_fill_hue() 是 等 价 的 ， 这 
对 颜色 标 度 也 成 立 。 

另 见 

要 反 转 图 例 顺序 ， 参 见 10.4 节 。 


要 修改 因子 水 平 的 顺序 ， 参 见 15.8 节 。 要 根据 其 他 变量 的 值 对 图 例 项 目 进行 排序 ， 参 
见 15.9 节 。 


10.4 反 转 图 例 项 目的 顺序 


问题 
如 何 反 转 图 例 中 项 目的 顺序 ? 
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方法 
添加 guides (fill=guide_legend (reverse=TRUE)) 以 反 转 图 例 的 顺序 ， 如 图 10-7 所 示 
(对 于 其 他 的 图 形 属性 ， 使 用 相应 图 形 属性 的 名 称 ， 如 colour 或 size 替换 fill 即 可 ): 





# 基本 图 形 
p <- ggplot (PlantGrowth, aes(x=group, y=weight, fill=group)) + geom boxplot () 
Pp 
## 反 转 图 例 顺序 
p + guides (fill=guide legend {reverse=TRUE)) 
J 4 . 
60 a 60 : 
5.5- group 5.5- group 
ctrl 择 trt2 
可 50- 申 与 50- 外 
让 mm 是 让 m 
4.5- [二 4.5- [SE 
4.0- 40- 
3.5- 一 / T Y 35- 一 / T T 
ctrl trtt trt2 ctrl trtt tr2 
group group 











图 10-7 左 图 : 默认 的 图 例 顺序 右 图 : 反 转 后 的 顺序 
讨论 
在 设 定 标 度 的 同时 也 可 以 控制 图 例 ， 如 下 所 示 : 


scale_fill_hue (guide=guide_legend (reverse=TRUE)) 


10.5 ”修改 图 例 标题 


问题 

如 何 修改 图 例 标题 中 的 文本 ? 

方法 

使 用 函数 1abs () 并 设 定 fi11、colour、shape 或 任何 对 于 图 例 来 说 合适 的 图 形 属性 


的 值 ( 见 图 10-8): 


# 基本 图 形 
Pp <- ggplot (PlantGrowth, aes(x-group, y=-weight, fill=group)) + geom boxplot() 
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旨 设置 图 例 标 题 为 "Condition" 





p + labs(fill="Condition") 
60- 
55 Condition 
中 ctrl 
a | 
EC- 
45- = 
4.0- 
35- 
本 











图 10-8 ”图 例 标题 被 设置 为 "Condition" 
讨论 
在 设 定 标 度 时 也 可 以 设置 图 例 标题 。 由 于 图 例 和 坐标 轴 均 为 引导 元 素 ， 这 样 做 与 设置 
x 轴 或 ? 轴 标题 的 原理 是 相同 的 。 
以 下 代码 与 上 述 代码 效果 相同 ， 

p + scale fill discrete(name="Condition") 


如 果 有 多 个 变量 被 映射 到 带 有 图 例 的 图 形 属性 〈 即 除 x 和 y 以 外 的 图 形 属性 )， 可 以 分 别 设 
置 每 个 图 例 的 标题 。 在 本 例 中 ， 我 们 将 使 用 \n 向 其 中 一 个 标题 添加 一 个 换行 〈 见 图 10.9): 
library(gcookbook) # 为 了 使 用 数据 集 
和 # 综 制 基本 图 形 
hw <- ggplot (heightweight，aes (x=ageYear, y=heightIn, colour=sex)) + 


geom point (aes(size=weightLb)) + scale size continuous (range=c(],4)) 


hw 


hy + labs(colour="Male/Female", size="Weight 可 


如 果 有 一 个 变量 被 分 别 映射 到 两 个 图 形 属性 ， 则 默认 会 生成 一 个 组 合 了 两 种 情况 的 图 例 。 
例如 ， 我 们 把 sex 同时 映射 到 shape 和 weight 上 ， 将 只 会 出 现 一 个 图 例 ( 见 图 10-10 左 图 ); 


hwl <- ggplot (heightweight, aes(x=ageYear, y=heightIn, shape=sex, colour=sex)) + 
geom_point () 


hwl 
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图 10-9 左 图 : 使 用 原始 标题 的 两 个 图 例 “ 右 图 : 使 用 新 标题 的 图 例 


要 修改 图 例 标题 〈 见 图 10-10 右 图 )， 你 需要 同时 设置 二 者 的 标题 。 如 果 只 修改 其 中 一 
个 ， 则 会 得 到 两 个 分 离 的 图 例 〈 见 图 10-10 中 图 ): 
# 仅 修 改 shape 的 标 
hwl + labs(shape: 










间 同时 修改 shape 和 co 
hwl + labs (shape= 








这 





agevear ageear 





10-10 左 图 : 一 个 变量 映射 到 shape 和 colour 时 的 默认 图 例 中 图 : 重 命名 了 shape 对 应 
的 图 例 标题 ” 右 图 : 同时 重 命名 了 shape 和 colour 对 应 的 图 例 


我 们 也 可 以 使 用 函数 guides () 来 控制 图 例 标题 。 这 样 做 虽然 有 点 嘿 叶 ， 不 过 在 你 使 用 
它 来 控制 其 他 属性 的 时 候 会 比较 有 用 : 


p + guides (fill=guide legend(title="Condition")) 


10.6 修改 图 例 标题 的 外 观 
问题 
如 何 修改 某 个 图 例 标题 文 本 的 外 观 ? 
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方法 


使 用 theme (legend.title=element text())〔 见 图 10-11): 
p <- ggplot (PlantGrowth, aes(x=group, y=weight, fill=group)) + geom boxplot() 





p + theme(legend.title=element text (face="italic", family="Times", colour="red" 
size=14)) 
\ » 
60 2 
5.5- group 
和 
总 5o- 外 on 
i [eli 
45- 晶 m2 
40- 
35 1 T 1 
em ttt trt2 
group 











图 10-11 ” 自 定义 图 例 标题 外 观 

讨论 

我 们 也 可 以 通过 guides () 来 指定 图 例 标 题 的 外 观 ， 但 这 种 方式 有 点 哪 嗪 。 以 下 代码 
与 上 述 代码 效果 相同 : 


p + guides (fill=guide_legend(title.theme= 
element_text (face="italic", family="times", colour="red", size=14))) 


另 见 
参见 9.2 节 以 了 解 更 多 关于 如 何 控制 文本 外 观 的 信息 。 


10.7 移 除 图 例 标题 


问题 

如 何 移 除 某 个 图 例 的 标题 ? 

方法 

添加 语句 guides (fill=guide_legend (title=NULL) ) 可 以 从 图 例 中 移 除 标题 ， 如 图 10-12 


所 示 ( 对 于 其 他 图 形 属性 ， 只 需 将 fi11 替换 为 相应 图 形 属性 的 名 称 ， 如 colour 或 size 
即 可 ): 
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ggplot (PlantGrowth, aes(x=group, y=weight, fill=group)) + geom_boxplot () + 
guides (fill=guide_legend (title=NULL)) 





6.0- $e 
2 

55- 
后 eb 
2 4 CE 

45- 5 

4.0- 

35- T T T 

ctrl trt1 trt2 
group 











图 10-12 不 含 图 例 标题 的 箱 线 图 
讨论 
在 设 定 标 度 的 同时 也 可 以 控制 图 例 标题 。 以 下 代码 与 前 述 代码 效果 相同 : 


scale fill hue(guide = guide_ legend(title=NULL)) 


10.8 修改 图 例 标 签 


问题 

如 何 修改 某 个 图 例 中 的 标签 文本 ? 

方法 

设置 标 度 中 的 labels 参数 即 可 〈 见 图 10-13 左 图 ): 


library (gcookbook) # 为 了 使 用 数据 集 





# 基本 图 形 

Pp <- ggplot (PlantGrowth, aes(x=group, y=weight, fill=group)) + geom boxplot() 
## 修改 图 侧 标签 

P + scale fill discrete(labels=c{("Control", "Treatment 1", ")) 


讨论 
注意 ,x 轴 的 标签 并 没有 改变 。 要 修改 它 ， 需 要 设置 scale_x_discrete() 中 的 标签 
(参见 8.10 节 )， 或 者 修改 数据 让 其 拥有 不 同 的 因子 水 平 名 称 〈 参 见 15.10 节 )。 
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图 10-13 左 图 : 通过 对 MA 的 南 圾 开标 并 手动 指定 了 图 风 答 右 图 : 通过 其 他 标 度 手动 拒 定 了 标 和 


在 上 例 中 ， 变 量 group 被 映射 到 了 图 形 属性 fi11 上 。 默 认 情况 下 ， 这 将 会 使 用 scale_ 
fill_discrete()， 以 将 不 同 的 因子 水 平 映射 到 色 环 上 均匀 分 布 的 颜色 值 上 (与 
scale_fill_hue() 的 情况 相同 )。 我 们 也 可 以 使 用 其 他 fill 标 度 通过 相同 的 原理 设 定 
标签 。 举 例 来 说 ， 要 绘制 图 10-13 中 的 右 图 ， 只 需 : 
p + scale fill grey(start=,5, end=1, 
labels=c(" ")) 


如 果 同 时 修改 了 图 例 项 目的 顺序 ， 则 标签 会 依照 位 置 顺序 与 项 目 进行 匹配 。 在 本 例 
中 ， 我 们 将 修改 项 目的 顺序 ， 并 确保 以 相同 的 顺序 设置 标签 ( 见 图 10-14): 


P + scale fill discrete(limits=c("trt 




















labels=c("T ' i 
group 
Bo 请 Treatment 1 
洲 葬 Teatment2 
户 Contro 
ctrl trtt tr 
group 











图 10-14 ”修改 了 图 例 标签 顺序 并 手动 指定 了 标签 (注意 x 轴 的 标签 和 顺序 并 未 改变 ) 
如 果 有 一 个 变量 被 分 别 映射 到 两 个 图 形 属性 ， 则 默认 会 生成 一 个 组 合 了 两 种 情况 的 图 
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例 。 如 果 希 望 修改 图 例 标 签 ， 则 必须 同时 修改 两 种 标 度 中 的 标签 ， 否则 将 得 到 两 个 分 
离 的 图 例 ， 如 图 10-15 所 示 : 

## 基本 图 形 

p <- ggplot (heightweight, aes (x=ageYear, y=heightIn, shape=sex, colour=sex)) + 

geom_point () 

Pp 

双修 改 一 个 标 度 中 的 标签 

p+ scale shape discrete(labels=c ("Fe 





## 同时 修改 两 个 标 度 中 的 标签 
p + scale_shape discrete(labels=c 
scale_colour discrete (labels= 





















图 10-15 左 图 : 将 一 个 变量 映射 到 shape 和 colour 中 图 : 为 shape 指定 了 新 标签 ” 右 图 : 
同时 为 shape 和 colour 指定 了 新 标签 


其 他 含有 图 例 的 常用 标 度 包括 : 


。 scale fill discrete() 
。 scale fill huel() 

。 scale fill manual() 
。 scale fill grey() 

。 scale fill brewer() 
。 scale colour discrete() 
。 scale_colour hue() 

e。 scale colour manual () 
。 scale colour grey() 
® scale colour brewer () 
。 scale_ shape manual() 
。 scale linetype() 


默认 情况 下 ， 使 用 scale_fill_discrete() 与 使 用 scale_fill_hue() 是 等 价 的 ， 这 
对 颜色 标 度 也 成 立 。 
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10.9 修改 图 例 标 签 的 外 观 
问题 

如 何 修改 革 个 图 例 中 标签 的 外 观 ? 

方法 


使 用 theme (legend.text=element_text ()) ( 见 图 10-16); 


六 基本 图 形 
P <- ggplot (PlantGrowth, aes(x=group, y=weight, fill=group)) + geom boxplot() 


## 修改 图 例 标 签 的 外 观 





p + theme (legend.text=element_text (face=" ", family="Times", colour="red" 
size=14)) 

60- . 

» 

55- group 
兰 外 -or/ 
总 50- 

a 项 1/1/ 
45- (三世 
40- 
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ctrl ttt trt2 
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图 10-16 ” 自 定义 图 例 标签 外 观 

讨论 

我 们 也 可 以 通过 guides () 来 指定 图 例 标签 的 外 观 ， 虽 说 这 种 方式 有 点 笨拙 。 以 下 代 
码 与 上 述 代 码 效 果 相同 : 


参 修改 fill 对 应 图 例 
p + guides(f 





答 文 本 的 外 观 





de_legend (label. theme= 





element_ text (face="it ", family=" ", colour="red", size=14))) 


另 见 
参见 92 节 以 了 解 更 多 关于 如 何 控制 文本 外 观 的 信息 。 
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10.10 使 用 含 多 行文 本 的 标签 
问题 

如 何 使 用 含有 多 于 一 行文 本 的 图 例 标签 ? 

方法 


在 相应 标 度 中 设置 labels 参数 ， 使 用 \n 来 表示 新 行 。 在 本 例 中 ， 我 们 将 使 用 scale_ 
fill_discrete() 来 控制 标 度 fill 的 图 例 〈 见 图 10-17 左 图 ): 


p <- ggplot (PlantGrowth, aes(x=group, y=weight, fill=group)) + geom_boxplot () 


才 含有 多 于 一 行文 本 的 标签 
p+ scale fill discrete(labels 


group 
group 
外 Conwo 起 cm 
和 由 让 De 
Me 向 膏 六 me ee 


tl wh 和 wt 
group group 














图 10-17 左 图 : 多 行 的 图 例 标签 右 图 : 增加 了 图 例 说 明 的 高 度 并 减 小 了 行距 


讨论 
从 图 10-17 左 图 可 以 看 到 ， 默 认 设 置 下 ， 当 使 用 多 于 一 行文 本 的 标签 时 ， 各 行文 本 将 
相互 登 加 。 要 处 理 这 个 问题 ， 可 以 使 用 theme () 增加 图 例 说 明 的 高 度 并 减 小 各 行 的 间 
距 完 成 ( 见 图 10-17 右 图 )。 要 实现 这 个 操作 ， 需 要 使 用 grid 包 中 的 unit () 函数 来 指 
定 高 度 : 


library (grid) 
p + scale_fill discrete(labels=c("Cont 





theme (legend. text=element_text (lineheight=.3), 
legend. key.height=unit (1, "cm")) 
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分 面 


数据 可 视 化 中 最 实用 的 技术 之 一 是 将 分 组 数据 并 列 呈 现 ， 这 样 使 得 组 间 的 比较 变 得 轻 而 
易 举 。 使 用 ggplo 做 这 件 事 的 方法 之 一 是 将 一 个 离散 型 变量 映射 为 一 个 图 形 属性 ， 如 x 的 
位 置 、 颜 色 或 形状 。 另 一 种 方法 则 是 为 每 组 数据 创建 一 个 子 图 ， 然 后 并 排 绘制 这 些 子 图 。 


这 类 图 形 被 称 为 格子 (trellis) 图 形 ， 它 们 已 被 lattice 包 和 ggplot2 包 所 实现 。 在 
ggplot2 中 ， 它 们 被 称 为 分 面 〔facet)。 在 本 章 中 ， 将 讲解 它们 的 使 用 方法 。 


11.1 使 用 分 面 将 数据 分 割 绘制 到 子 图 中 


问题 

如 何在 独立 的 面板 中 绘制 数据 的 若干 子 集 ? 

方法 

使 用 facet_grid() 或 facet_wrap() 函数 ， 并 指定 根据 哪个 变量 来 分 割 数据 。 

使 用 facet_grid() 函数 时 ， 你 可 以 指定 一 个 变量 作为 纵向 子 面板 分 割 的 依据 ， 并 指 
定 另 外 一 个 变量 作为 横向 子 面板 分 割 的 依据 〈 见 图 11-1): 


寺 基本 图 形 

p <- ggplot (mpg, aes(x=displ, y=hwy)) + geom_point () 
# 纵向 排列 的 子 面板 根据 drv 分 面 
p + facet grid(drv ~ .) 








# 横向 排列 的 子 面板 根 分 
p + facet grid(. ~ cyl) 


# 同时 根据 drv (纵向 ) 和 cyl ( 权 向 ) 分 害 
p + facet grid(drv ~ cyl) 
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图 11-1 上 图 : 根据 drv 横向 分 面 左下 图 : 根据 cyl 纵向 分 面 右 下 图 : 使 用 双 变量 双向 分 面 


使 用 facet_wrap () 时 ， 各 子 图 将 像 纸 上 的 文字 一 样 被 依次 横向 排 布 并 换行 ， 如 图 11-2 所 示 : 


# 依 class 分 面 
志 注意 波浪 线 前 没有 任何 字符 


p+ facet wrap( ~ class) 
讨论 
使 用 facet_wrap () 时 ， 默 认 使 用 相等 数量 的 行 和 列 。 图 11-2 中 共有 7 个 分 面 ， 恰 好 可 以 


嵌入 一 个 3X3 的 “ 方 阵 ” 中 。 要 对 该 方 阵 进行 修改 ， 可 以 通过 向 nrow 或 ncol 赋值 实现 : 
# 两 种 方式 的 结果 是 相同 的 : 2 行 4 列 的 分 面 
p+ facet wrap( ~ class, nrow=2) 
p+ facet wrap( ~ class, ncol=4) 
分 面 方 向 的 选择 依赖 于 你 更 倾向 于 鼓励 读 图 者 进行 哪 种 类 型 的 比较 。 举 例 来 说 ， 如 果 
你 希望 比较 各 条 形 的 高 度 ， 让 分 面 横向 排 布 会 更 有 用 ; 如 果 你 希望 比较 直方 图 的 水 平 
分 布 ， 那 么 纵向 排 布 分 面 是 明智 的 选择 。 


有 时 两 类 比较 都 很 重要 一 一 所 以 对 于 哪 种 分 面 方向 更 好 的 问题 ， 可 能 没有 一 个 明确 的 
答案 。 可 能 的 结果 是 ， 通 过 将 分 组 变量 映射 到 某 种 如 颜色 之 类 的 图 形 属性 ， 在 单一 的 
图 形 中 来 展示 分 组 ， 会 比 使 用 分 面 的 效果 更 好 。 在 这 些 情况 下 ， 只 能 依靠 你 自己 的 判 
断 来 决定 使 用 哪 种 方式 。 
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图 11-2 使 用 facet_wrap() 对 class 分 面 得 到 的 散 点 图 


11.2 在 不 同 坐标 轴 下 使 用 分 面 


问题 
如 何 绘制 坐标 轴 范 围 或 坐标 轴 元 素 不 同 的 多 个 子 图 ? 
方法 


将 标 度 设置 为 "free x"、"free_y" 或 "free" ( 见 图 11-3): 


丰 基本 图 形 
p <- ggplot (mpg, aes(x=displ, y=hwy)) + geom point() 


埋 使 用 自由 的 了 标 度 
p+ facet grid(drv ~ cyl, scales="free y") 


单 使 用 自由 的 x 标 度 和 了 标 度 
p + facet gridldrv ~ cy1，scales="ireen) 
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图 11-3 上 图 : 使 用 自由 的 了 标 度 下 图 : 使 用 自由 的 x 标 度 和 y 标 度 


讨论 
当 使 用 自由 的 > 标 度 时 ， 各 行 子 图 都 将 拥有 自己 的 值 域 ， 当 使 用 自由 的 x 标 度 时 ， 
相同 的 原理 也 适用 于 各 列子 图 。 


你 无 法 直接 设置 各 行 或 各 列 的 值 域 ， 但 是 可 以 通过 丢弃 不 想 要 的 数据 以 缩减 值 域 ) 
或 通过 添加 几何 对 象 geom_blank () 〈 以 扩展 值 域 ) 的 方式 控制 值 域 的 大 小 。 


另 见 
参见 3.10 节 中 使 用 自由 标 度 和 离散 型 坐标 轴 分 面 的 示例 。 
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11.3 ”修改 分 面 的 文本 标签 


问题 

如 何 修改 分 面 标签 的 文本 ? 

方法 

修改 因子 各 水 平 的 名 称 即 可 〈 见 图 11-4): 
mpg2 <- mpg # 复制 一 份 原始 数据 


# 重 命名 4 为 4wd、f 为 Front、r 为 Rear 
levels (mpg2$drv) [levels (mpg2$drv) 
levels (mpg2$drv) [levels (mpg2$drv) 
levels (mpg2$drv) [levels (mpg2$drv) 





和 绘制 新 数据 


ggplot (mpg2, aes(x=displ, y=hwy)) + geom point() + facet grid(drv ~ .) 





hwy 
3 
[ 
.2 





oj] 0 
30- ao 
| 
20- 20- 
es 
2345 6 7 2 3 5§67 





4 
displ displ 








图 11-4” 左 图 : 默认 分 面 标签 、 右 图 : 修改 后 的 分 面 标签 


讨论 
要 设置 分 面 标签 ， 必 须 修改 数据 本 身 的 值 ， 这 在 用 法 上 与 能 够 设置 标签 的 标 度 有 所 不 


204 第 11 章 


同 。 另 外 ， 在 本 书 撰写 之 时 ， 尚 无 将 分 面 变量 的 名 称 作为 各 分 面 标题 显示 的 方法 ， 所 
以 使 用 更 有 描述 力 的 分 面 标签 是 比较 有 用 的 。 

使 用 facet_grid() 时 (目前 并 不 适用 于 facet_wrap() )， 可 以 使 用 一 个 贴 标 函 数 (labeller 
function) 来 设置 标签 。 以 下 贴 标 函 数 label_both () 将 在 每 个 分 面 上 同时 打印 出 变量 
的 名 称 和 变量 的 值 ( 见 图 11-5 左 图 ): 


ggplot (mpg2, aes(x=displ, y=hwy)) + geom point() + 
facet gridldrv ~ ., labeller = label both) 

















图 11-5 左 图 : 使 用 1abel_both() 右 图 : 使 用 label_parsed() 绘制 数学 表达 式 
另 一 个 实用 贴 标 函 数 是 label_parsed()， 它 可 以 读 入 字符 串 ， 并 将 其 作为 R 数学 表 
达 式 来 解析 〈 见 图 11-5 右 图 ): 

mpg3 <- mpg 


levels (mpg3$drv) [levels (mpg3$drv)=="4"] <- "4*fwdl" 
levels (mpg3$drv) [levels (mpg3$drv) ] <- "- Front $.% e^fpi * ij 
levels (mpg3$drv) [levels (mpg3$drv)=="r"] <- "4"1wdj ~ Front™ 





ggplot (mpg3, aes(x=displ, y=hwy)) + geom point() + 
facet gridldrv ~ ., labeller = label parsed) 


另 见 
参见 15.10 节 以 了 解 更 多 因子 水 平 重 命名 的 知识 。 如 果 分 面 变量 不 是 一 个 因子 而 是 一 
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个 型 向 量 ， 修 改 方式 会 稍 有 不 同 。 参 考 15.12 节 以 了 解 字符 型 向 量 元 素 的 重 命名 


11.4 修改 分 面 标签 和 标题 的 外 观 

问题 

如 何 修改 分 面 标签 和 标题 的 外 观 ? 

方法 

使 用 ， 通 过 设置 strip.text 来 控制 文本 的 外 观 ， 设 置 strip.background 以 
控制 背景 的 外 观 〈 见 图 11-6); 








library( k) 








di6 d20 ue] 
, 尘 内 注 | 
| 如 
| 
Cultivar " | 


图 11-6” 自 定义 分 面 标签 的 外 观 
讨论 


rel (1.5) 使 得 标签 文本 的 大 小 为 此 主题 下 基准 文本 大 小 的 1.5 倍 





在 背景 设置 中 使 用 的 size=1 使 得 分 面 标 题 背 中 旨 的 粗细 为 1 毫米 
另 见 
关于 主题 工作 原理 的 更 多 信息 ， 参 见 9.3 节 和 9.4 节 
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配色 





在 ggplot2 的 图 形 语法 中 ， 颜 色 是 一 个 图 形 属性 (aesthetic)， 如 同 x 的 位 置 、y 的 位 置 、 
大 小 等 一 样 。 如 果 颜 色 仅 仅 就 是 一 个 简单 的 图 形 属性 ， 那 又 何必 单 开 一 章 ? 原因 是 颜 
er tie 得 多 。 和 简单 地 将 几何 对 象 geom) 左右 移动 、 放 大 放 小 相 

当 你 使 用 颜色 的 时 候 ， 有 很 多 维度 或 者 说 自由 度 要 考虑 。 表 达 离散 型 数据 时 应 该 
用 省 六 析 从 讽 包 1 是 否 要 使 用 几 种 不 同 的 渐变 色 系 ? 如 何 选择 合适 的 颜色 使 得 有 视 
觉 缺 陷 的 人 也 能 正确 地 读 图 ? 在 这 一 章 中 ， 我 会 解答 这 些 问题 。 


12.1 设置 对 象 的 颜色 


问题 

如 何 设置 图 形 中 几何 对 象 的 颜色 ? 

方法 

对 于 几何 对 象 ， 设 置 colour 或 者 fill 参数 的 值 ( 见 图 12-1): 
i") 





ggplot (mtcars, aes(x=wt, y=mpg)) + geom point (colour=" 


library (MASS) # 为 了 使 用 数据 集 
ggplot (birthwt, aes(x=bwt)) + geom histogram(fill="red", colour="black") 


讨论 
在 ggplot2 中 ,设置 和 映射 图 形 属性 有 非常 重大 的 区 别 。 在 前 面 的 例子 中 ， 我 们 将 对 
象 的 颜色 设置 为 "red" (红色 )。 


一 般 而 言 ，colour 参数 控制 的 是 线条 、 多 边 形 轮廓 的 颜色 ， 而 fi11 参数 控制 的 是 多 边 
形 的 填充 色 。 对 于 点 形 来 说 ， 情 况 略 微 有 些 不 同 。 大 多 数 的 点 形 ， 整 个 点 的 颜色 是 由 
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colour 控制 的 ， 而 不 是 人 11。 例 外 的 情况 是 21-25 号 点 ， 它 们 不 仅 有 填充 色 ， 也 有 边界 色 。 











» 
二 - 
25- 
站 1o- EE . 四 
3 E 汪 过 了 
20 
和 
2 
45 1 . 
o “ 
1000 2000 3000 4000 S5000 2 3 5 
bwt wt 





图 12-1 左 图 : 设置 填充 色 和 边界 色 右 图 : 设置 点 的 颜色 
另 见 

关于 不 同形 状 的 点 的 更 多 信息 ， 参 见 4.5 节 。 

关于 设置 颜色 的 更 多 信息 ， 参 见 12.4 节 。 


12.2 将 变量 映射 到 颜色 上 
问题 
如 何 用 一 个 变量 (来 自 于 数据 框 的 某 一 列 ) 来 控制 几何 对 象 的 颜色 ? 


方法 


对 于 几何 对 象 ， 将 colour 或 fi11 参数 的 值 设 置 为 数据 中 某 一 列 的 列 名 即 可 〈 见 图 12-2): 
library (gcookbook) 丰 为 了 使 用 数据 集 





这 两 种 方法 效果 相同 
ggplot (cabbage exp, aes(x=Date, y=Weight, fill=Cultivar)) + 
geom bar (colour=" ", position=" ") 


ggplot (cabbage exp, aes(x=Date, y=Weight)) + 
geom_bar (aes (fill=Cultivar), colour=" ", position=" ") 


站 这 两 种 方法 效果 相同 


ggplot (mtcars, aes(x=wt, y=mpg, colour=cyl)) + geom point() 


ggplot (mtcars, aes (x=wt, y=mpg)) + geom point (aes (colour=cyl)) 
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图 12-2 左 图 : 将 变量 映射 到 fi11 参数 ”三 图 : 将 变量 映射 到 点 的 colour 参数 

ggplot () 函数 中 的 映射 使 用 的 是 默认 映射 《所 有 几何 对 象 都 由 此 继承 )。 通 过 在 geom 
系列 函数 中 的 具体 设置 ， 可 以 覆盖 默认 映射 。 

讨论 

在 cabbage_exp 的 例子 中 ， 变 量 cultivar 映射 到 了 fill。cabbage_exp 数据 集 的 列 
Cultivar 是 因子 ， 因 此 ggplot2 将 它 作为 离散 型 变量 处 理 。 你 可 以 输入 str() 来 验证 : 


str (cabbage_exp) 





'data.frame': 6 obs. of 6 variab: 
$ Cultivar: Factor w/ 2 levels c52": 111222 
$Date  : Factor w/ 3 levels "dl6","d20","d21": 123123 
$ Weight : num 3.18 2.8 2.74 2.26 3.11 1.47 
$sd : num 0.957 0.279 0.983 0.445 0.791 ... 
$n : int 10 10 10 10 10 10 
$ se : num 0.3025 0.0882 0.311 0.1408 0.2501 ... 


在 mtcars 的 例子 中 ， 变 量 cyl 是 数值 形式 的 ， 因 此 它 被 作为 连续 型 变量 来 处 理 。 正 
因为 如 此 ， 尽 管 它 的 实际 取 值 仅仅 包含 了 4、6、8， 图 例 中 还 是 显示 了 中 间 值 5 和 7。 
为 了 让 ggplot () 把 cyl 视 为 分 类 变量 ， 我 们 可 以 在 ggplot () 函数 中 将 其 转化 为 因子 ， 
或 者 修改 原 数 据 让 需要 的 列 成 为 字符 或 因子 类 型 〈 见 图 12-3)。 


# 在 ggplot () 中 因子 化 
ggplot (mtcars, aes(x=wt, y=mpg, colour=factor(cyl))) + geom point() 


















皇 另 一 个 方法 : 在 原 数 据 中 因子 化 


m <- mtcars 六 复制 mtcars 

m$cyl <- factor(m$cyl) # 将 cyl 转化 为 因 于 

ggplot (m, aes(x=wt, y=mpg, colour=cyl)) + geom point() 
另 见 


你 可 能 还 需要 改变 在 标 度 中 使 用 的 颜色 。 对 于 连续 型 数据 ， 参 见 12.6 节 ， 对 于 离散 型 
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数据 ， 参 见 12.3 节 或 12.4 节 。 





. 
. 
ao- 转 
4 factor(cyl) 
一 一 + 4 
| 
E 区 = 
20- . $ . ws 
本 
157 鸡 * * 
. 
下 1 了 于 
2 4 5 
wt 











图 12-3 ”将 连续 型 变量 转换 为 因子 映射 到 颜色 上 


12.3 ”对 离散 型 变量 使 用 不 同 的 调 色 板 
问题 

如 何 对 离散 映射 的 变量 使 用 不 同 的 颜色 ? 

方法 

使 用 表 12-1 中 列 出 的 一 种 标 度 。 

表 12-1 离散 的 填充 色 标 度 和 轮廓 色 标 度 




















scale fill discrete() | scale colour discrete() | 色 轮 周围 均匀 等 距 色 〈 同 
scale_fill hue() scale_colour_hue() 色 轮 周围 均匀 等 距 色 ( 同 discrete) 
scale_fill_ grey() scale_colour_grey() 灰 度 调 色 板 

scale fill brewer() scale_colour brewer() | ColorBrewer 调 色 板 

scale_fill manual () scale_colour_manual () | 自 定义 颜色 








在 本 例 中 ， 我 们 将 会 使 用 默认 调 色 板 和 ColorBrewer 调 色 板 〔 见 图 12-4): 


library(gcookbook) 丰 为 了 使 用 数据 集 


# 基础 图 形 
p <- ggplot (uspopage，aes (x=Year, y=Thousands, fill=AgeGroup)) + geom areal() 
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# 这 三 种 方法 效果 相同 

p 

p+ scale fill discrete() 
p + scale fill hue() 


# ColorBrewer 调 色 板 
P + scale fill brewer() 





AgeGroup 
站 =” 250000- 本 
sw 5-14 

200000- 

15-24 中 15-24 
上 150000- 25-34 

= 上 
6 45-54 
5-64 soo00— 55-64 
64 四 :es 


1900 1920 1040 You 1980 2000 1900 20 Te 1960 1980 2000 








图 12-4 ， 左 图 : 默认 调 色 板 (hue ) 右 图 : 一 个 ColorBrewer 调 色 板 

讨论 

修改 调 色 板 就 是 修改 填充 色 标 度 (fil1) 或 轮廓 色 标 度 (colour): 它 会 涉及 从 连续 
型 或 离散 型 变量 到 图 形 属性 上 映射 的 改变 。 在 颜色 上 有 两 个 类 型 的 标 度 ， 填 充 色 标 度 
和 轮 廊 色 标 度 。 

函数 scale_fill_hue () 中 ， 颜 色 来 自 HCL 色 系 (hue-chroma-lightness : 色相 - 色 度 - 
亮度 ) 的 色 轮 ， 默 认 的 亮度 是 65〈 取 值 为 0-100)。 这 很 适合 作为 填充 色 ， 但 对 点 、 线 
条 来 说 略微 亮 了 些 。 为 了 使 点 、 线 条 的 颜色 更 深 一 点 〈 见 图 12-5 右 图 ) ， 可 以 设置 亮 
度 参 数 1 值 (luminance/lightness) 来 实现 。 








| 
12 13 14 15 16 17 12 13 14 15 16 17 
ageYear ageYear 











图 12-5 左 图 : 默认 亮度 的 点 右 图 : 亮度 设置 为 45 
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# 基本 的 散 点 图 
h <- ggplot (heightweight, aes(x=ageYear, y=heightIn, colour=sex)) + 
geom_point () 





六 默认 亮度 1 


# 略微 加 深 

h + scale_colour_hue(1=45) 
ColorBrewer 包 提供 了 很 多 调 色 板 。 你 可 以 生成 一 张 图 来 查看 该 包 中 所 有 调 色 板 ， 参 
见 图 12-6: 


library(RColorBrewer) 
display.brewer.all() 








_ 

| 

| 

_ 

RdBu 图 国 本 于 | 
I 

| 

| 

”可 











图 12-6 ”所 有 的 ColorBrewer 调 色 板 
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ColorBrewer 调 色 板 可 以 通过 名 称 来 选择 。 比 如 ， 这 将 使 用 橘 黄色 调 色 板 〈 见 图 12-7): 


p + scale_fill brewer (palette= ) 


AgeGroup 
250000- 


5-14 
15-24 


8 

香 
号 
soooo- 
避 

上 

声 





100000- 





45-54 
50000- 55-64 
>64 
0 
1900 1920 1940 1960 1980 2000 
Year 








图 12-7 ”使 用 橘 黄色 的 ColorBrewer 调 色 板 





你 还 可 以 使 用 灰 度 调 色 板 ， 它 很 适合 黑白 打印 。 标 度 范围 是 0 一 1 〈 其 中 0 对 应 黑色 ， 
1 对 应 白色 )， 灰 度 调 色 板 的 默认 范围 是 0.2 一 0.8， 但 这 个 可 以 更 改 ， 参 见 图 12-8。 


p + scale fill grey() 


# 倒转 方向 并 且 更 改 灰 度 范 轩 
p + scale fill grey(start=0.1，end=0) 
AgeGroup 
| 2s0000 而 = 250000 -| as 
-14 si4 
200000 | 200000 
js 15-24 
150000- zs 150000- PN 
100000 pe 100000 Pe 
45-54 3 45-54 
soo00 55-04 soo00- se 
>64 记 > 
1900 1920 CN 0 19680 1900 1920 1940 1960 1980 2000 
Year 





图 12-8 左 图 : 使 用 默认 的 灰 度 调 色 板 右 | 


另 见 

10.4 节 中 讲述 了 倒转 图 例 。 

手动 选择 颜色 ， 参 见 12.4 节 。 

关于 ColorBrewer 的 更 多 信息 参见 http://colorbrewer.org。 





一 个 不 同 的 灰 度 调 色 板 
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12.4 ”对 离散 型 变量 使 用 自 定义 调 色 板 


问题 

对 离散 映射 的 变量 ， 如 何 使 用 不 同 的 颜色 ? 

方法 

在 本 例 中 ， 我 们 将 用 scale_colour_manual () 函数 来 自 定义 颜色 〈 见 图 12-9)。 其 中 


的 颜色 可 以 是 已 命名 的 ， 也 可 以 是 RGB 形式 的 。 
library (gcookbook) # 为 了 使 用 数据 集 


皇 基础 图 形 
h <- ggplot (heightweight，aes (x=ageYear，y=heightIn，colour=sex)) + geom point () 





# 使 用 颜色 名 
h + scale colour manual (values=c ("red", "blue")) 
# 使 用 RGB 值 
h + scale_colour manual (values=c ("#CC6666", "#7777DD")) 
区 a 
70- -二 一 二 一 70-. + 
2 2 py 
et 2 2 pt 的 
i 区 光宇 志 _ 
三 Ds 5 至 一 
Bo Ve nm on 
se $e +» 
Ee 55 -me 
上 全 拓 际 
的 + 
人 114 1 16 17 12 13 44 4 16 17 
ageyear age' 





图 12-9 。” 左 图 : 使 用 颜色 名 的 散 点 图 “ 右 图 : 使 用 略微 不 同 的 RGB 颜色 

对 于 填充 色 标 度 ， 使 用 scale_fil1l_manual () 代替 即 可 。 

讨论 

参数 values 向 量 中 的 元 素 顺序 自动 匹配 离散 标 度 对 应 因子 水 平 的 顺序 。 在 前 面 的 例 
子 中 ，sex 的 顺序 是 先 £ 后 m， 因 此 values 的 第 一 个 值 赋予 5， 第 二 个 值 赋予 n。 下 
面 是 如 何 查看 因子 顺序 的 方法 : 


levels (heightweightSsex) 














mf" nm 
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如 果 变 量 是 字符 型 向 量 而 非 因子 形式 ， 那 么 它 会 被 自动 转化 为 因子 ， 顺 序 也 默认 地 按 
字母 表 排 序 。 
如 果 想 自 定义 颜色 分 配 的 顺序 ， 可 以 使 用 带 有 名 称 的 向 量 参数 : 


h + scale_colour manual (values=c (m="blue", f="red")) 


在 R 中 有 很 多 已 经 命名 的 颜色 ， 你 可 以 运行 colors () 命令 来 查看 。 知 道 一 些 基本 的 

颜色 名 是 很 有 用 的 ， 比 如 "white”、"black”、"grey80"、"red"、"blue"、"darkred" 

等 。 还 有 很 多 其 他 的 颜色 ， 但 是 它们 的 名 字 并 不 是 很 好 理解 (比如 我 就 对 "thist1e3"、 

"seashell" 之 类 的 毫 无 概念 )， 因 此 使 用 RGB 值 来 定义 颜色 往往 更 容易 些 。 

RGB 颜色 是 由 六 个 数字 构成 〈 十 六 进 制 数 ) ， 形 式 如 "#RRGGBB"。 在 十 六 进 制 中 ， 数 

字 先 从 0 到 9， 然 后 紧 接着 是 A 到 FE， 其 中 A 对 应 十 进 制 中 的 10，F 对 应 十 进 制 中 的 

15。 每 一 个 颜色 都 由 两 个 数字 来 表示 ， 范 围 从 00 到 FF (( 对 应 十 进 制 中 的 255)。 举 

个 例子 ， 颜 色 "# FF0099" 中 ，255 表示 红色 、0 表示 绿色 、153 表示 蓝 色 ， 整 体 表示 品 

红色 。 十 六 进 制 数 中 每 个 颜色 通道 常常 重复 同样 的 数字 ， 因 为 这 样 更 容易 阅读 并 且 第 

二 个 数字 的 精确 值 对 外 观 的 影响 并 不 是 很 明显 。 

这 里 总 结 了 一 些 设置 、 调 整 RGB 颜色 的 经 验 法 则 。 

。 在 一 般 情况 下 ， 较 大 的 数字 更 明亮 ， 较 小 的 数字 更 暗淡 。 

。 如 果 要 得 到 灰色 ， 将 三 个 颜色 通道 设置 为 相同 的 值 。 

。 和 RGB 对 立 的 是 CMY (印刷 三 原色 ): 青 (cyan) 、 品 红 (magenta) 、 黄 (yellow )。 
红色 通道 值 越 高 ， 颜 色 越 红 ， 越 低 则 越 青 。 同 样 的 法 则 适用 于 另外 两 组 颜色 对 : 绿 

另 见 


这 里 提供 了 一 个 RGB 颜色 十 六 进 制 表 : http://html-color-codes.com/。 


12.5 使 用 色 言 友 好 式 的 调 色 板 


问题 

如 何 选择 色盲 朋友 也 能 正确 区 分 的 颜色 ? 

方法 

使 用 函数 scale_fill_manual()， 调 色 板 (cb_palette) 用 自 定义 的 ( 见 图 12-10): 
library (gcookbook) 去 为 了 使 用 数据 集 





# 基础 图 形 
Pp <- ggplot (uspopage, aes(x=Year, y=Thousands, fill=AgeGroup)) + geom_areal) 
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夺 加 入 灰色 到 调 色 板 : 
cb_palette <- c 











# 将 其 使 用 到 图 形 中 
p + scale fill manual (values=cb palette) 
AgeGroup 
250000- 5 
5-14 
外 15-24 
盟 150000- 25-34 
全 35-44 
产 100000- 
45-54 
50000— 55-64 
>64 
0- 
1 证 i ' 
1900 1920 1940 1960 1980 2000 
Year 








图 12-10 一 个 色盲 友好 式 的 图 形 
图 12-11 中 展示 了 颜色 。 





#000000 
#999999 
#E69F00 
#56B4E9 
#009E73 
#FOE442 
#0072B2 
#D55E00 
#CC79A7 














图 12-11 ”RGB 数值 的 色盲 调 色 板 

有 时 候 使 用 黑色 可 能 比 灰色 更 好 ， 此 时 将 "#999999" 替换 为 "#000000" 或 "black” 即 可 : 
mer 

讨论 

大 约 8% 的 男性 、0.5% 的 女性 存在 某 种 形式 的 颜色 识别 缺陷 ， 因 此 你 的 周围 很 可 能 就 

有 这 样 的 人 。 
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色盲 的 形式 多 种 多 样 ， 这 里 的 调 色 板 是 经 专门 设计 、 能 让 所 有 常见 的 色觉 缺陷 人 士 区 分 
的 (Monochromacy， 或 全 色盲 ， 是 非常 军 见 的 。 这 种 色盲 人 群 只 能 区 分 亮度 的 差异 )。 


另 见 

本 调 色 板 的 来 源 : http://jfly.iam.u-tokyo.ac.jp/color/。 

Color Oracle 程序 (http://colororacle.org/) 可 以 仿真 模拟 出 你 屏幕 上 的 东西 在 色觉 缺陷 
人 士 眼 中 的 样子 ， 不 过 要 记 住 的 是 这 个 仿真 模拟 并 不 完善 。 在 我 非 正式 的 测试 中 ， 我 
看 了 一 幅 模拟 红 绿 色 缺陷 的 图 片 ， 可 以 很 好 地 区 分 ， 但 真正 的 红 绿 色盲 却 无 法 区 分 ! 
12.6 ”对 连续 型 变量 使 用 自 定义 调 色 板 

问题 

如 何 对 连续 型 变量 自 定义 调 色 板 ? 

方法 


在 本 例 中 ， 我 们 将 会 展示 对 连续 型 变量 自 定义 渐 变 式 的 调 色 板 〈 见 图 12-12)。 颜 色 可 
以 用 已 命名 的 ， 也 可 以 用 RGB 值 来 指定 。 











weightib welghttb 
eo eo 
mo em 
io0 » 100 
e120 .120 
e140 » 140 
60 160 
weignttb wetghtb 
ee ee0 
ea wa0 
100 100 
120 120 
140 so 
160 .160 
1219141 1 才 
ageyear 














图 12-12 ”从 左上 图 顺 时 针 依次 是 : 默认 颜色 、 两 色 渐变 ( scale_colour_gradient () ) 、 三 色 
渐变 (scale_colour_gradient2() ) 和 四 色 渐变 (scale_colour gradientn() ) 
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library(gcookbook) # 为 了 使 用 数据 集 


# 基础 图 形 

p <- ggplot (heightweight, aes (x=ageYear, y=heightIn, colour=weightLb)) + 
geom_point (size=3) 

p 


专 使 用 两 种 颜色 的 渐变 色 


P + scale colour gradient (low="b 





# 渐变 色 中 间 用 白色 划分 

library (scales) 

p + scale colour gradient2(low=muted("red"), mid="white", high=muted("blue"), 
midpoint=110) 


提 n 个 颜色 的 渐变 色 


p + scale_colour gradientn(colours = c("dark 


对 于 填充 色 标 度 ， 使 用 scale_fill_xxx() 替换 即 可 ， 这 里 xxx 是 gradient、gradient2 
或 gradientn 中 的 一 个 。 


讨论 
将 连续 型 变量 映射 到 颜色 标 度 上 需要 一 组 连续 变化 的 颜色 。 表 12-2 列 出 了 连续 的 填充 
色 和 轮廓 色 标 度 。 

表 12-2 连续 的 填充 色 和 轮廓 色 标 度 


ww "uhite")) 





d", "orange", "yel 












两 色 渐变 
scale_ fill gradient2() |scale_colour_gradient2() | 三 色 渐变 ， 由 中 间 色 、 两 端 
色 渐 变 组 成 





scale fill gradientn() |scale_colour_gradientn() | 等 间隔 的 ”种 颜色 的 渐变 色 


请 注意 ， 我 们 在 本 例 中 使 用 了 muted () 函数 。 该 函数 来 自 scales 包 ， 它 会 针对 输入 的 
颜色 输出 一 个 饱和 度 较 低 的 颜色 (RGB 格式 )。 


另 见 
如 果 你 不 想 用 连续 标 度 ， 而 想 使 用 离散 〈 分 类 ) 标 度 ， 你 可 以 将 数据 重新 编码 成 分 类 
值 。 参 见 15.14 节 。 


12.7 ”根据 数值 设 定 阴影 颜色 


问题 
如 何 根据 ? 值 设置 阴影 的 颜色 ? 
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方法 
增加 一 列 来 对 ?进行 划分 ， 然 后 将 该 列 映射 到 填充 色 标 度 上 。 在 本 例 中 ， 首 先 对 数据 
进行 正 负 划 分 。 

library(gcookbook) 盾 为 了 使 用 数据 集 


cb <- subset (climate, Source=="Berkeley") 








cb$valence[cb$Anomalyl0y >= 0] <- " 
cb$valencelcb$Anomalyl0y < 0] <- " 
cb 


Source Year Anomalyly Rnomaly5y Anomalyl0y Uncl0y valence 


Berkeley 1800 NA NA -0.435 0.505 neg 
Berkeley 1801 NA NA -0.453 0.493 neg 
Berkeley 1802 NA NA -0.460 0.486 neg 
Berkeley 2002 NA NA 0.856 0.028 pos 
Berkeley 2003 NA NA 0.869 0.028 pos 
Berkeley 2004 NA NA 0.884 0.029 pos 


当 我 们 对 数据 划分 正 负 之 后 ， 我 们 就 可 以 将 valence 变量 映射 到 填充 色 上 来 作 图 了 ， 
如 图 12-13 所 示 : 
ggplot (cb, aes (x=Year, y=Anomalyl0y)) + 
geom area(aes (fill=valence)) + 


geom line() + 
geom hline (yintercept=0) 





05- 
名 valence 
会 00 neg 
目 pos 

-05- 

1.0- 

| b ' | 
1800 1850 1900 1950 2000 
Year 











12-13 ”将 valence 映射 到 填充 色 一 一 注意 1950 年 附近 0 水 平 线 下 面 的 红色 区 域 
讨论 
如 果 你 仔细 观察 此 图 ， 会 发 现在 0 水 平 线 附 近 有 一 些 凌乱 的 阴影 。 这 是 因为 两 个 颜色 
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区 域 都 是 由 各 自 的 数据 点 多 边 形 包 围 形成 的 ， 而 这 些 数据 点 并 不 都 在 0 上 。 为 了 解决 
这 个 问题 ， 我 们 可 以 用 approx() 将 数据 插值 到 1000 个 点 左右 。 


# approx() 返回 一 个 列表 ， 包 含 x 和 y 向量 
interp <- approx(cb$Year，cbSanomaly10yY，n=1000) 


手 放 在 一 个 数据 框 中 并 重新 计 
cbi <- data.frame (Year=interp$x, nomslyl0yintorpfy 
cbi$valence[cbi$Anomalyl0y >= 0] <- " 

cbi$valence[cbi$Anomalyl0y < 0] <-" 


我 们 也 可 以 让 插值 精确 地 通过 零点 ， 但 显然 这 样 会 更 复杂 。 在 这 里 ，approx () 的 效果 
已 经 很 好 了 。 


现在 ， 我 们 重新 绘制 插值 后 的 数据 〈 见 图 12-14)。 这 一 次 ， 我 们 还 会 做 一 些 调整 一 一 
让 阴影 区 域 半 透明 、 改 变 颜色 、 移 除 图 例 并 删除 填充 区 域 左右 两 侧 的 空余 


ggplot (cbi，aes (x=Year, y=Anomalyl0y)) + 
geom arealaes (fill=valence), alpha = .4) + 
geom line() + 
geom hline (yintercept=]) + 
scale_fill manual (values=c ("#C' 
scale_x_continuous (expand=c (J, 0) 





ralence 





"), guide=FALSE) + 








05 
人 Ss 
i 00 

-05- 

-10- 

1 | 
1800 1850 1900 1950 2000 
Year 











图 12-14 ”插值 数据 的 阴影 区 域 
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数据 可 视 化 的 方法 很 多 ， 有 些 图 形 实在 难以 清晰 地 分 门 别 类 。 本 章 展示 如 何 绘制 这 些 图 形 。 


13.1 绘制 相关 矩阵 图 


问题 

如 何 绘制 一 个 相关 矩阵 图 ? 

方法 

我 们 先 来 看 看 mtcars 数据 集 : 
mtcars 

mpg cyl disp hp drat Wt qsec vs am gear carb 

Mazda RX4 21.0 6 160.0 110 3.90 2.620 16.46 0 1 4 4 
Mazda RX4 Wag 21.0 6 160.0 110 3.90 2.875 17.02 0 1 4 4 
Datsun 710 22.8 4 108.0 93 3.85 2.320 18.61 1 1 4 1 
Ferrari Dino 19.7 6145.01753.622.770 15.50 0 1 5 6 
Maserati Bora 15.0 8301.0 335 3.54 3.570 14.60 0 1 5 8 
Volvo 142E 21.4 4 121.0 109 4.11 2.780 18.60 1 1 4 2 

首先 ， 使 用 cor 函数 来 计算 相关 矩阵， 将 会 得 到 每 两 列 之 间 的 相关 系数 : 
mcor cor (mtcars) 
# 输出 mcor， 保 留 两 位 小 数 








round (mcor，digits=2) 


mpg cyl disp hp drat 此 qsec vs am gear carb 
mpg 1.00 -0.85 -0.85 -0.78 0.68 -0.87 0.42 0.66 0.60 0.48 -0.55 
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-0.59 -0.81 -0.52 -0.49 
-0.43 -0.71 -0.59 -0.56 
-0.71 -0.72 -0.24 -0.13 
0.09 0.44 0.71 0.70 -0. 


cy1 -0.85 00 0.90 0.83 -0.70 0 
1 0 0 
0 
0 
-0.17 -0.55 -0.69 -0.58 0.43 
0 
0 
0 
0 
1 


disp -0.85 .00 0.79 -0.71 
hp -0.78 0.83 0.79 1.00 -0.45 
drat 0.68 -0.70 -0.71 -0.45 1.00 
Ww -0.87 0.78 0.89 0.66 -0.71 
qsec 0.42 -0.59 -0.43 -0.71 0.09 
vs 0.66 -0.81 -0.71 -0.72 0.44 
am 0.60 -0.52 -0.59 -0.24 0.71 1. 

gear 0.48 -0.49 -0.56 -0.13 0.70 -0.58 -0.21 0.21 0.79 1.00 
carb -0.55 0.53 0.39 0.75 -0.09 0.43 -0.66 -0.57 0. 


如 果 数 据 含有 不 能 用 来 计算 系数 的 任何 列 〈 比 如 一 列 姓 名 )， 应 该 先 将 这 些 列 剔除 。 如 
果 在 原始 数据 中 存在 缺失 值 (NA)， 得 到 的 相关 和 矩阵 中 也 会 有 缺失 值 。 为 了 克服 这 个 问 
题 ， 你 可 以 使 用 函数 选项 use="complete.obs" 或 者 use="pairwise.complete.obs"。 
我 们 使 用 corrplot 包 来 绘制 相关 矩阵 图 〈 见 图 13-1)， 第 一 次 使 用 时 用 install. 
packages ("corrplot") 命令 来 安装 该 包 : 


1. 
0. 


1.00 0.74 -0.23 -0.21 -0. 
0.74 1.00 0.17 0.21 -0， 








library (corrplot) 





corrplot (mcor) 







上 
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图 13-1 ”一 个 相关 矩阵 图 
讨论 
corrplot () 函数 有 相当 多 的 选项 。 这 里 给 出 一 个 绘制 相关 和 矩阵 图 的 例子 ， 例 图 使 用 颜 
色 方 块 和 黑色 文本 标签 ， 并 且 上 边 的 文本 标签 呈 45" 右倾 〈 见 图 13-2)。 

corrplot (mcor, method=" ", Shade.col=NA, tl].col=") k", tl.srt=45) 
将 相关 系数 展示 在 矩阵 的 每 一 个 小 方块 上 也 是 很 有 用 的 。 在 本 例 中 ， 我 们 使 用 一 
原 书 代码 元 余 ， 此 处 对 代码 进行 了 调整 。 一 一 译 者 注 








222 第 13 章 


个 稍 淡 一 点 的 调 色 板 ， 这 样 会 让 系数 更 加 可 读 ， 同 时 ， 我 们 也 移 除 掉 多 余 的 颜色 图 
例 。 此 外 ， 我 们 对 矩阵 重新 排序 ， 这 样 相近 的 变量 在 图 中 会 更 近 ， 其 中 使 用 的 参数 是 
Og" (前 两 个 特征 向 量 的 角 排序 )。 结 果 如 图 13-3 所 示 。 










", shade.col=NA, tl.col= ", tl.srt=65, 
f .col=" ", Cl.pos "no", order=" ) 


PR SR BR Fe EER, 























13-3 ”相关 矩阵 图 ( 添加 了 相关 系数 并 移 除了 图 例 ) 


和 其 他 独立 的 绘图 函数 一 样 ，corrplot () 有 很 多 自己 的 选项 ， 这 里 无 法 一 一 列 出 ， 
表 13-1 给 出 了 一 些 最 有 用 的 参数 。 
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表 13-1 corrplot () 的 选项 


























type={"lower"| "upper"} 仅 使 用 下 三 角 或 上 三 角 

diag=FALSE 是 否 展示 对 角 线 上 的 数值 

method="shaden 使 用 颜色 方块 图 形 

method="ellipse" 使 用 椭圆 图 形 

addCoef .col="color" 在 图 形 上 添加 相关 系数 的 颜色 
t1.srt="nunbern 设 定 图 形 上 方 文本 标签 的 倾斜 角度 
t1.col="colorn 设 定 文本 标签 颜色 

order={"AOE" | "FPC" | "hclust"} 和 矩阵 重 排序 ， 使 用 特征 值 角 排序 、 第 一 主 成 分 或 


层次 聚 类 





另 见 
如 果 要 生成 散 点 图 和 矩阵， 参见 5.13 节 。 


关于 更 多 数据 取 子 集 的 方法 ， 参 见 15.7 节 。 


13.2 ”绘制 函数 曲线 


问题 
如 何 绘制 函数 曲线 ? 


方法 

使 用 stat_function() 函数 。 为 了 得 到 合适 的 x 的 范围 ， 必 须 给 ggplot () 函数 传递 一 个 

“ 哑 ” 数 据 框 。 在 本 例 中 ， 我 们 用 正 态 分 布 的 密度 函数 dnorm() 来 演示 〔 见 图 134 左 图 )。 
# 这 个 数据 框 仅仅 用 于 设 定 范围 


P <- ggplot (data. frame (x=c(-3, 3))), aes(x=x)) 


p + stat_function (fun = dnorm) 

















图 13-4 左 图 : 正 态 分 布 函数 “ 右 图 : 自由 度 为 2 的 {分布 
讨论 
某 些 函 数 需要 设 定额 外 的 参数 ， 比 如 + 分 布 的 密度 函数 dt () 就 需要 一 个 参数 来 设 定 自 
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由 度 〈 见 图 13-4 右 图 )。 可 以 这 样 来 设 定额 外 的 参数 : 先 把 它们 放 在 一 个 列表 〈list) 
中 ， 再 传递 给 args。 

p+ stat function (fun=dt, args=list (df=2)) 
我 们 也 可 以 绘制 自 定义 的 函数 。 其 中 第 一 个 参数 必须 是 x 轴 的 值 ， 并 且 必 须 返回 y 轴 
的 值 。 在 本 例 中 ， 我 们 绘制 一 个 S 型 函数 〈 见 图 13-5)。 


myfun <- function (xvar) { 
/ (1 + exp(-xvar + 10)) 
} 


ggplot (data, frame (x=c (J, 20)), aes(x=x)) + stat_function (fun=myfun) 

















图 13-5 用 户 自 定义 的 函数 

计算 函数 值 时 默认 使 用 给 出 的 x 范围 内 的 101 个 点 。 但 如 果 你 的 函数 跳跃 很 大 ， 夯 出 
来 的 图 可 能 有 一 些 支离破碎 的 线段 。 为 了 让 曲线 更 加 光滑 ， 可 以 给 stat_function () 
传递 一 个 更 大 的 n， 比 如 stat_function (fun=myfun，n=200) 。 


另 见 
绘制 模型 对 象 的 预测 值 (如 lm 和 glm)， 参 见 5.7 节 。 


13.3 在 函数 曲线 下 添加 阴影 


问题 
如 何在 函数 曲线 下 的 某 一 区 域 添加 阴影 ? 


方法 
根据 你 的 曲线 函数 定义 一 个 新 的 函数 ， 把 x 范围 外 对 应 的 值 替 换 为 NA， 如 图 13-6 所 示 。 


# 在 0 < x < 2 时 返回 dnorm(x)， 其 他 时 候 返 回 NA 
dnorm limit <- function(x) { 

了 <- dnorm(x) 

yx<0 | x>2]<- 耻 

return (y) 
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} 


# ggplot () 使 用 “ 唾 ”数据 
p <- ggplot (data. frame (x=c(-3, 3)), aes(x=x)) 


p + stat_function (fun=dnorm limit, geom="area", fill="blue", alpha=0.2) + 
stat_function (fun=dnorm) 





04- 


03- 


>02- 











图 13-6 ”添加 了 阴影 区 域 的 函数 曲线 图 

记 住 ， 给 这 个 函数 传 入 的 是 一 个 向 量 ， 并 不 是 一 个 单独 的 值 。 如 果 这 个 函数 每 次 只 操 
作 一 个 元 素 ， 那 么 使 用 一 个 if/el se 语句 来 根据 x 的 值 确定 返回 值 是 更 为 合理 的 。 但 
是 那样 做 在 这 里 却 行 不 通 ， 因 为 x 是 一 个 含有 许多 值 的 向 量 。 


讨论 
R 中 有 第 一 类 函数 ， 我 们 可 以 写 一 个 函数 来 返回 一 个 闭 包 。 也 就 是 说 ， 我 们 可 以 编写 
一 个 能 够 编写 函数 的 函数 。 


这 个 函数 将 允许 你 传递 一 个 函数 、 一 个 最 小 值 和 一 个 最 大 值 。 定 义 域外 对 应 的 值 域 返 


limitRange <- function(fun，min，max) { 
function(x) { 
y <- fun(x) 
ylx < min | x> max] <- NA 
return(y) 
} 
} 


现在 我 们 可 以 调用 这 个 函数 来 生成 男 一 个 函数 了 一 一 这 和 之 前 使 用 的 dnorm_limit () 
函数 效果 一 样 : 


# 返回 一 个 函数 
dlimit <- limitRange(dnorm，0，2) 























加 





# 现在 我 们 可 以 尝试 新 函数 了 一 仅 对 0-2 之 同 的 输入 返回 输出 值 
dlimit (-2:4) 


[1] RNR NA 0.39894228 0.24197072 0.05399097 NA NA 
我 们 使 用 limitRange () 来 生成 函数 ， 并 传递 给 stat_function (): 
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p+ stat_function(fun = dnorm) + 
stat_ function (fun = limitRange (dnorm, 0, 2), 
geom= fill="blue", alpha=0.2) 








limitRange() 函数 可 以 用 来 生成 任何 函数 的 “区 间 限 制式 ”函数 ， 不 局 限于 
dnorm()。 之 所 以 如 此 ， 是 因为 我 们 没有 针对 每 一 种 情况 来 写 不 同 的 函数 得 到 硬 编码 


值 ， 而 是 写 了 一 个 能 够 根据 不 同情 况 智能 传递 参数 的 函数 。 


如 果 你 非常 非常 仔细 地 观察 图 13-6， 可 能 会 看 见 阴 影 区 域 并 没有 和 我 们 给 出 的 边界 
范围 完全 对 齐 。 这 是 因为 ggplot2 在 固定 区 间 上 计算 函数 值 时 做 了 个 数值 近似 ， 并 
且 这 些 区 间 没 有 完全 落 在 指定 的 范围 上 。 如 13.2 节 所 述 ， 我 们 可 以 通过 设置 stat_ 








function (n=200) 以 增加 内 插 点 数量 的 方式 来 提升 近似 的 效果 。 
13.4 ”绘制 网 络 图 


问题 
如 何 绘制 一 个 网 络 图 ? 


方法 


使 用 igraph 包 。 要 绘制 网 络 图 ， 首 先 给 graph () 函数 传递 一 个 包含 所 有 边 的 向 量 ， 然 


后 绘制 结果 对 象 ( 见 图 13-7): 


# 首次 运行 可 能 需要 安装 包 ， 命 令 : install .packages ("igraph") 
library (igraph) 


## 指定 一 个 有 向 图 的 边 


gd <- graph(c(i,3, 2,3, 2,4, 34, 5,3, 3,6)) 

plot (gd) 

# 一 个 无 向 图 

gu <- graphlc(l,2, i Lr, 3,3, 16), directed=FALSE) 


# 不 画 标 答 
plot (gu, vertex.1abel=NA) 
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图 13-7 左 图 : 一 个 有 向 图 右 图 : 一 个 没 画 节点 标签 的 无 向 图 
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这 是 两 个 图 对 象 的 结构 : 
Str(gd) 
IGRAPH D--- 6 6 -~- 


十 和 
[1] 1->2 2->3 2->4 1->4 5->5 3->6 


str(gu) 


IGRAPH U--- 6 6 -- 

+ edges: 

[3] 1 一 2 2 一 3 2 一 人 1 一 4 5 一 5 3 一 6 
讨论 
在 网 络 图 中 ， 节 点 的 位 置 并 不 是 由 所 给 数据 确定 的 ， 它 们 是 随机 放置 的 。 如 果 要 让 得 
到 的 图 更 可 读 ， 可 以 在 绘图 之 前 设置 随机 数 种 子 。 比 如 ， 可 以 尝试 不 同 的 随机 数 种 子 
直到 得 到 一 个 比较 满意 的 结果 : 


set.seed(2° 3) 
plot (gu) 


也 可 以 从 数据 框 中 直接 生成 图 。 使 用 数据 框 的 前 两 列 ， 并 且 每 一 列 确定 两 个 节点 相 
连 。 在 下 一 个 例子 中 《〈 见 图 13-8)， 我 们 将 使 用 这 种 结构 的 数据 集 madmen2。 我 们 还 
会 使 用 Fruchterman-Reingold 布局 算法 。 该 算法 的 主要 思想 是 所 有 节点 之 间 都 有 电磁 
斥 力 ， 但 是 连接 节点 的 边 像 弹簧 一 样 ， 会 把 相应 的 节点 拉 在 一 起 : 





ts 
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e092 入 
©@-W--© 人 
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图 13-8 ”从 数据 框 生成 的 有 向 图 ， 布 局 算法 为 Fruchterman-Reingold 算法 


228 第 13 章 


1library(gcookbook) 站 为 了 使 用 数据 集 


madmen2 
Namel Name2 
Abe Drexler Peggy Olson 
Allison Don Draper 
Arthur Case Betty Draper 


邓 从 数据 集中 生成 图 对 象 
g <- graph.data. frane (madmen2, directed=TRUE) 


## 移 除 多 余 的 空白 边 


par (mar=c(0,0,0,0)) 


plot (g, layout=layout. fruchterman. reingold, vertex.size=3, edge.arrow.size=),5, 
vertex.1abel=NA) 


也 可 以 从 数据 框 生成 无 向 图 。madmen 数据 集中 一 行 就 可 以 表示 一 条 边 ， 因 为 对 于 无 向 
图 来 说 方向 是 没有 意义 的 。 现 在 ， 我 们 使 用 圆圈 布局 〈 见 图 13-9): 


g <- graph.data.frame (madmen, directed=FALSE) 
Par (mar=c(0,0,0,0)) 地 移 除 多 余 的 空白 边 
plot(g，1layout=layout .circle，Vertex.size=5，Vvertex,1label=NRA) 

















13-9 ”从 数据 框 生成 的 圆 形 布局 的 无 向 图 
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另 见 

更 多 关于 图 像 输 出 参数 的 信息 ， 参 见 ?plot . igraph。 关 于 布局 选项 的 参数 ， 参 见 
?igraph: :layout。 

igraph 的 一 个 替代 选择 是 Rgraphviz， 该 包 是 Graphviz (一 个 绘制 网 络 图 的 开源 库 ) 的 
前 端 。 它 的 优点 是 能 更 方便 地 处 理 标签 ， 而 且 也 更 容易 控制 布局 。 但 是 它 比 较 难 安 
装 。Rgraphviz 由 Bioconductor 系统 库 维护 。 


13.5 在 网 络 图 中 使 用 文本 标签 


问题 
如 何在 网 络 图 中 使 用 文本 标签 ? 


方法 


边 和 节点 可 能 都 有 名 字 ， 但 默认 时 这 些 名 字 可 能 没有 被 当 作 标签 。 为 了 设置 标签 ， 可 
以 给 vertex.1abel 参数 传递 一 个 命名 向 量 ( 见 图 13-10): 


library (igraph) 
library(gcookbook) # 为 
# 复制 madmen 并 删除 偶数 行 
m <- madmen[i:nrow(madmen) 4 2 == 1, ] 
g <- graph.data,frame (m，directed-PALSE) 





了 使 用 数据 集 








冯 输出 节 

V(g) Sname 

[1] "Betty Draper" "Don Draper" "Harry Cranen "Joan Holloway" 
[5] "Lane Pryce" "Peggy 01son" "Pete Campbell" "Roger Sterling" 
[9] "sal Romano" "Henry Francis" "Allison" "Candace" 

[13] "Faye Miller" "Megan Calvet" "Rachel Menken" "Suzanne Farrell" 
[17] "Hildy" "Franklin" "Rebecca Pryce" "Abe Drexler" 
[21] "Duck Phillips" "Playtex bra model" "Ida Blankenship" "Mirabelle Ames" 
[25] "Vicky" "Kitty Romano™ 


plot (g, layout=layout.fruchterman.reingold 





vertex. size = 3 二 
vertex. label = V(g)Sname， # 
vertex.label.cex ’ # 
vertex.label.dist = ’ # 





vertex.label.color = "black") 
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Sal Romarity Romano 


站 一 一 一 人 多 Rebecca Pryce 
9 
[3 
Mirabelle Ames Ian Blankenship 
© Hildy 
© 
Roger Sterling Hary Crane 
a 9 
Joan Holloway Vicky Henry Prancis 
© © © 
Franklin 
Dm 
© 本 Megan Calvet 
四 
Suzanne Farrel} 
Allison hoybraper 一 个 
Playtex bm model 一 
© Abe Drexler ] 
~ Faye Miller 
Pete Campbell Rachel Menken © 
Peggy Olson ® Candace 
@ © 
~Duck Phillips 











图 13-10” 带 有 文本 标签 的 网 络 图 

讨论 

另 一 种 能 得 到 相同 效果 的 方法 是 修改 绘图 对 象 ， 这 样 就 不 用 给 plot () 函数 传递 参数 
值 了 。 此 时 ， 可 以 使 用 V() $xxx <- 来 代替 vertex.xxx 参数 传递 值 。 比 如 ， 下 面 的 代 


码 可 以 得 到 和 之 前 代码 相同 的 输出 。 


# 这 和 之 前 的 代码 是 等 价 的 
V(g)Ssize <- 
V(g)Slabel <- V(g) $name 
Vlg)$label.cex <- 

Vlg) $label.dist <- 

V(g) $1abel.color <- "black" 


# 设置 整个 图 的 属性 
g$layout <- layout.fruchterman.reingold 


plot (g) 


同样 ， 也 可 以 设置 边 的 属性 ， 使 用 E() 函数 或 者 给 edge.xxx 参数 传递 相应 的 值 ( 见 图 13-11)。 


捍 查看 边 
El(g) 
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厅 将 几 个 边 的 名 字 研 值 为 "M" 
Elg) [c(2,11,19)]$1abel <- "M" 


间 将 所 有 边 颜 色 设 置 为 灰色 ， 然 后 把 其 中 几 个 变 为 红色 


E(g)$Scolor <- "grey70" 
El(g) [c(2,11,19)]$color <- "red" 





plot (9) 
Sal Romarity Romano 
Oo—Me® Rebecca Pryce 
Mirabelle Ames @ 
lda Blankenship js 
© 
Roger Sterling ai 
县 . 
Joan Holloway 宙 Henry Francis 
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-ee 
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© Abe Drexler 
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© 自 
Duck Phillips 
© 








图 13-11 ” 带 有 文本 标签 和 彩色 边 的 网 络 图 


另 见 


查阅 ?igraph.plotting 来 获取 igraph 包 中 更 多 的 绘图 参数 。 


13.6 ”如 何 绘制 热 


问题 
如 何 绘制 热 图 ? 
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方法 


使 用 geom tile() 或 者 geom_raster() ， 并 将 一 个 连续 变量 映射 到 fill 上 。 我 们 将 


使 用 presidents 数据 集 ， 它 是 一 个 时 间 序列 对 象 而 不 是 数据 框 。 
Presidents 
Qtrl Qtr2 Qtr3 Qtr4 


1945 NA 87 82 75 
1946 63 50 43 32 


1973 68 44 40 27 
1974 28 25 24 24 


str (presidents) 
Time-Series [1:120] from 1945 to 1975: NA 87 82 75 63 50 43 32 35 60 ... 
我 们 首先 将 它 转化 为 ggplot () 可 用 的 数据 框 格式 ， 其 中 的 列 都 是 数值 形式 的 。 









pres_rating <- d ( 
rating as.numeric (presidents), 
year = as.numeric(floor(time(presidents))), 


quarter = as.numeric (cycle (presidents)) 
) 


pres_rating 


rating year quarter 


NA 1945 成 
87 1945 2 
82 1945 3 
25 1974 2 
24 1974 3 
24 1974 4 


现在 我 们 可 以 使 用 geom_tile() 或 geom_raster() 来 绘图 ( 见 图 13-12)。 简 单 地 将 几 


个 变量 分 别 映射 到 x, y 和 fi11: 


# 基础 图 形 


p <- ggplot (pres_rat aes (x=year, y=quarter, fill=rating)) 





# 使 用 geom tile() 
p + geom tile() 





# 使 用 geom_raster () 看 起 来 一 样 ， 但 效率 咯 商 
p + geom_raster() 





- 
We 
EE 


yo 





图 13-12 ” 热 图 ， 数 据 中 的 缺失 值 用 灰色 来 代替 
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geom_tile() 和 geom raster() 的 结果 看 起 来 一 样 ， 但 实际 上 ， 它 们 是 有 
区 别 的 。 阅读 6.12 节 来 获取 更 多 相关 主题 的 信息 。 





讨论 

为 了 更 有 效 地 表达 信息 ， 你 可 能 需要 自 定义 热 图 的 外 观 。 在 本 例 中 ， 我 们 倒转 轴 ， 
这 样 顺序 就 是 从 上 到 下 了 ， 并 且 我 们 在 x 轴 上 每 隔 4 年 添加 一 个 坐标 刻度 值 来 表示 一 
个 总 统 任期 。 此 外 ， 我 们 更 换 之 前 的 颜色 标 度 ， 使 用 scale_fill_gradient2() 调 色 
板 ， 该 调 色 板 可 以 设置 一 个 中 点 和 两 个 端点 的 色彩 值 〈 见 图 13-13 ): 


p + geom tile() + 


scale_x_continuous (breaks = seq(1940, ,by= 0)) + 
scale y_reverse() + 
scale_fill gradient2 (midpoint=50, mid=" ", limits=c(0, 100)) 





b 
rn 


Ws 0 0 0 me i om wy 





图 13-13 一 个 自 定义 外 观 的 热 图 
另 见 
如 果 想 使 用 不 同 的 调 色 板 ， 参 见 12.6 节 。 


13.7 绘制 三 维 散 点 图 


问题 
如 何 绘制 一 个 三 维 散 点 图 ? 


方法 

我 们 使 用 rgl 包 ， 该 包 提供 了 OpenGL 图 形 库 的 3D 绘图 接口 。 要 画 三 维 散 点 图 ( 见 
图 13-14)， 可 以 使 用 plot3d () 函数 。 其 输入 参数 可 以 是 两 种 形式 : (1) 一 个 数据 框 ， 
前 三 列 分 别 表示 x、 六 = 的 坐标 ， (2) 直接 传递 三 个 向 量 ， 分 别 表示 x、y、z 的 坐标 。 


## 首次 运行 可 能 需要 安装 包 ， 命 令 : install .packages ("rgl") 
library (rgl) 
plot3d (mtcars$wt, mtcars$disp, mtcars$mpg, type="s", size=0.75, lit=FALSE) 


读 图 者 可 以 通过 点 击 和 拖 动 鼠标 来 旋转 图 形 ， 滑 动 鼠 标 滚轮 来 缩放 图 形 。 
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图 13-14 ”一 个 三 维 散 点 图 


这 默认 情况 下 ，plot3d () 函数 使 用 立方 体式 的 点 ， 这 不 大 适合 保存 为 PDF。 
[#1 为 了 改进 外 观 ， 我 们 使 用 type="s" 来 选择 球形 点 ，size=0.75 让 点 变 小 
一 些 ，1it=FALSE 来 关闭 3D 灯光 ( 否则 点 会 闪闪 发 亮 ). 
讨论 
三 维 散 点 图 比较 难 解释 ， 因 此 大 多 时 候 使 用 二 维 散 点 图 可 能 会 更 好 。 这 同样 也 意味 
着 ， 还 有 很 大 改进 空间 可 以 让 3D 散 点 图 更 容易 被 理解 。 
在 图 13-15 中 ， 我 们 添加 数值 线段 来 增强 空间 点 的 位 置 表 达 力度 ， 


地 交错 出 现 两 个 向 量 的 值 
interleave <- function(vl, v2) as.vector(rbind(vlvv2)) 









# 绘制 点 

Plot3d(mtcars$wt, mtcars$di 
xl ght", yl 
size= 

才 添加 线段 


segments3d (interleave (mtcars$wt, mtcars$wt), 
interleave (mtcars$disp, mtcars$disp), 
interleave (mtcars$mpg, min(mtcars$mpg)), 
alpha=0.4, col="blue") 
可 以 微调 图 形 的 背景 和 坐标 轴 。 在 图 13-16 中 ， 我 们 改变 坐标 轴 刻 度 的 数目 、 添 加 刻 
度 值 ， 并 在 指定 的 边 添加 坐标 轴 标 签 : 
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# 不 画 坐 标 刻度 和 标签 

plot3d (mtcars$wt, mtcars$disp, mtcars$mpg, 
xlab = "", ylab = "", zlab = "", 
axes = FALSE, 
size=. 5, type="s", lit=FALSE) 





segments3d (interleave (mtcarsSwt， mtcars$wt), 
interleave (mtcars$disp，mtcars$disp)， 
interleave (mtcars$mpg, min (mtcars$mpg)), 








alpha = 0.4, col = "blue") 
# 绘制 金子 
rgl.bbox (color= 帮 表面 颜色 为 grey60， 黑 色 文本 
emission: 4 光照 颜色 为 grey50 





xlen=0，ylen=0，zlen=0)  # 不 膛 加 刻度 


震 设置 默认 颜色 为 黑 


rgl.material (color="black") 


## 在 指定 边 膛 加 坐标 四 标签 。 可 能 的 值 奏 仆 于 "x--"，"x-+"，"x+-" 和 "xt+" 











axes3d (edges=c ("x-—", "y+-", "2-—"), 
ntick=6, 和 # 每 个 轴 上 6 个 刻度 线 
cex=. 75) ## 较 小 的 字体 

## 添加 坐标 标签 。 '1ine' 指定 标签 和 坐标 机 的 更 离 。 

mtext3d("W ", li ) 

mtext3d( ", line=3) 





mtext3d ("MPC 








Weight 











13-15 一 个 给 每 个 点 添加 了 竖 直 线 的 3D 散 点 图 
另 见 
查阅 ?plot3d 获取 控制 图 形 输出 的 更 多 选项 。 
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图 13-16 左 图 : 坐标 刻度 和 标签 重新 放置 的 三 维 图 “ 右 图 : 另 一 个 角度 的 视图 


13.8 在 三 维 图 上 添加 预测 曲面 


问题 
如 何在 一 个 三 维 散 点 图 上 添加 一 个 预测 曲面 ? 


方法 


首先 ， 我 们 需要 定义 一 些 功能 函数 来 得 到 模型 的 预测 值 ; 


# 给 定 一 个 模型 ， 根 据 xvar 和 Yvar 预测 zvar 
# 默认 为 变量 x 和 y 的 范围 ， 生 成 16x16 的 网 格 
predictgrid <- function (model，xvar，yvar，zvar，res = type = NULL) { 
## 计算 预测 变量 的 范围 。 下 面 的 代码 对 1m、glm 以 及 其 他 模型 方法 都 适用， 
丰 但 针对 其 他 模型 方法 时 可 能 需要 适当 调整 
xrange <- range (model$model[ [xvar]]) 
yrange <- range (modelSmodel[[yvar]]) 


newdata <- expand.grid(x = 
Y = seq(yrange[i], yrange[2], length.out 
names (newdata) <- c(xvar, yvar) 

newdata[ [zvar]] <- predict (model, newdata = newdata, type = type) 
newdata 


seq(xrange[:], xrange[2], length.out = res), 
= res)) 


将 长 数据 框 中 的 x，y， 人 

其 中 x，y 为 行列 值 ，z 为 算 

df2mat <- function(p, js = NOLL, yvar = NULL, zvar = NULL) | 
if (is.null(xvar)) xvar <- names(p) [i] 

if (is.null(yvar)) yvar <- names (p) [2] 

if (is.null(zvar)) zvar <- names(p) [3] 


x <- unique(p[ [xvar]]) 
<- unique(p[[yvar]]) 
<- matrix(p[[zvar]], nrow = length(y), ncol = length(x)) 


Ne 


m<- list(x, y, z) 


names (m) <- c(xvar, yvar, zvar) 
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m 
} 


# 交错 出 现 两 个 向 量 的 元 素 
interleave <- function(v1，v2) as.vector(rbind(vlvv2)) 


利用 这 些 定义 好 的 功能 性 函数 ， 我 们 可 以 对 数据 生成 线性 模型 ， 然 后 利用 surface3d () 
函数 在 原 散 点 图 上 添加 网 格式 的 预测 图 ， 如 图 13-17 所 示 : 


library (rg1) 
六 复制 教 据 集 


m <- mtcars 


## 生成 线性 模型 
mod <- lm(mpg ~ wt + disp + wt:disp, data = m) 


二 根据 wt 和 disp， 得 到 mpg 的 预测 值 
m$pred_mpg <- predict (mod) 


和 # 根据 wt 和 disp 的 网 格 ， 得 到 mpg 的 预测 值 
mpgrid df <- predictgrid(mod, "wt", "disp", "mpg") 
mpgrid_list <- df2mat (mpgrid_df) 


# 根据 数据 点 绘图 

plot3d(m$wt, m$disp, mSmpg, type="s", size=),.5, lit=FALSE) 

# 添加 预测 点 ( 较 小 ) 

spheres3d (m$wt, m$disp, m$pred mpg, alpha=0.4, type="s", size=0.5, lit=FALSE) 


丰 添加 表示 误差 的 线段 

segments3d (interleave (m$wt, mS$wt), 
interleave (m$disp, m$disp), 
interleave (m$mpg, mS$pred_mpg), 
alpha=0.4, col="red") 


# 添加 预测 点 网 格 
surface3d (mpgrid list$wt, mpgrid list$disp, 
alpha=]. 4, front="lines", back="l 

















图 13-17 添加 了 预测 曲面 的 三 维 图 
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讨论 


我 们 可 以 调节 图 形 的 外 观 ， 如 图 13-18 所 示 。 我 们 还 可 以 逐一 添加 图 形 的 各 个 组 件 : 


plot3d(mtcars$wt, mtcars$disp, mtcars$mpg, 
xlab = "", ylab = "", zlab = "", 
axes = FALSE, 


size=.5, type="s", lit=FALSE) 





所 添加 预测 点 〈 较 小 ) 
spheres3d (mnSwt，mS$disp，mSpred_mpg，alpha=0.3，type: 


# 添加 误差 线段 

Segments3d (interleave (nmSwt， msSwt)， 
interleave (m$disp, m$disp), 
interleave (m$mpg, m$pred_mpg), 
alpha=0.4, col="red") 


二 添加 预测 值 网 格 
surface3d (mpgrid list$ut, mpgrid listsdisp, mpgrid_list$npg, 
alpha=].4, front=" ") 


, lit=FALSE) 














# 绘制 盘子 

rg1 .bbox (color="g I 抽 表面 颜色 为 grey60， 黑 色 文本 
emission="gr # 光照 颜色 为 grey50 
xlen=0, yle! 入 不 画 刻 度 线 





## 对 象 跌 认 色 设置 为 黑色 
rgl.material (color="black") 


# ee ey 讨 签 可 能 的 值 类 似 于 et te eS etka 


PO 4 每 个 办 上 6 个 刻度 线 
4 胃 小 字 匠 


， 指定 标签 和 坐标 灿 的 更 离 。 
edge="x--", line=2) 

t", edge="y+-", line=3) 

mtext3d ("MPG", edge="z--", line=3) 










MPG 














图 13-18” 自 定义 外 观 的 三 维 散 点 图 
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另 见 
输入 ?rgl1.material 获取 更 多 关于 改变 曲面 图 外 观 的 信息 。 


13.9 保存 三 维 图 
问题 
如 何 保存 一 个 rgl 包 绘制 的 三 维 图 ? 


方法 
可 以 使 用 rgl.snapshot () 来 保存 rgl 包 绘制 的 位 图 。 它 会 精确 捕捉 屏幕 上 的 图 形 。 


library (rg1) 


plot3d(mtcars$wt, mtcars$disp, mtcars$mpg, type="s", size= , lit=FALSE) 
rgl.snapshot (" png’, fmt='png') 

也 可 以 使 用 rgl.postscript () 保存 为 PostScript 或 PDF 格式 文件 : 
rgl.postscript ('fig ph/3dplot .pdf', fmt='pdf') 
rgl.postscript (" plot .ps', fmt="'ps') 


PostScript 和 PDF 输出 文件 并 不 支持 rgl 依赖 的 OpenGL 库 的 很 多 特性 。 比 如 ， 它 们 不 
支持 透明 度 ， 并 且 点 线 等 对 象 的 大 小 可 能 和 屏幕 上 表现 出 来 的 也 不 一 致 。 
讨论 
为 了 使 得 输出 的 图 片 更 加 可 读 ， 你 可 以 保存 当前 的 视角 ， 之 后 再 恢复 。 
# 保存 当前 视角 
view <- par3d("userMatrix") 
# 恢复 保存 的 视角 
par3d(userMatrix = view) 
为 了 将 视角 保存 为 代码 ， 你 可 以 使 用 dput () 函数 ， 然 后 将 输出 复制 粘贴 到 你 的 代码 中 : 
dput (view) 
structure (c (0.907931625843048, 0.267511069774628, -0.322642296552658, 
0, -0.410978674888611, 0.417272746562958, -0.810543060302734, 


0, -0.0821993798017502, 0.868516683578491, 0.488796472549438, 
0, 0, 0, 0, 1), .Dim = c(4L, 4L)) 


一 旦 有 了 userMatrix 的 文本 表达 式 ， 将 下 面 的 代码 添加 到 你 的 脚本 中 即 可 : 


View <- structure(c( ’ 
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Dim = cl(3L，4L)) 


， 0， O00 0，3)v 


par3d(userMatrix = view) 


13.10 三 维 图 动画 


问题 

如 何 让 一 个 三 维 图 根据 视角 的 移动 形成 动画 ? 

方法 

旋转 三 维 图 能 够 更 完整 、 多 方位 地 观察 数据 。 可 以 在 play3d () 中 使 用 spin3d () 来 生 
成 三 维 动画 : 


library (rg1) 
plot3d(mtcars$wt, mtcars$disp, mtcars$mpg, type="s", size=0.75, lit=FALSE) 


play3d (spin3d()) 
讨论 
默认 地 ， 图 像 会 绕 着 z 轴 ( 竖 直 的 轴 ) 旋转 ， 直 到 你 给 R 发 送 一 个 停止 的 指令 。 


你 可 以 改变 转轴 、 转 速 和 持续 时 间 : 


4 绕 x 轴 转 动 ， 每 分 钟 4 转 ， 持 续 20 秒 钟 
play3d (spin3d(axis=c (i,0,0), rpm=4), duration=20) 


可 以 使 用 movie3d() 来 保存 动画 ， 方 法 和 play3d () 一 样 。 它 将 会 生成 一 系列 .png 格 
式 的 图 片 文件 ， 每 个 文件 代表 一 帧 ， 然 后 可 以 利用 ImageMagick 软件 提供 的 convert 
命令 将 这 些 文件 合并 转化 为 .gif 动画 文件 。 


这 将 会 生成 持续 15 秒 ， 每 秒 50 帧 的 动画 : 


时 绕 z 轴 转 动 ， 每 分 钟 4 转 ， 持 续 15 秒 
movie3d (spin3d (axis=c (0,0,1), rpm=$), duration=15, fps=50) 


输出 的 文件 将 会 被 存放 在 一 个 临时 文件 夹 中 ， 地 址 名 会 在 R 窗口 中 输出 。 


如 果 你 不 想 利 用 ImageMagick 将 输出 的 图 片 转换 为 .gif， 可 以 设置 convert=FALSE， 
然后 用 其 他 软件 将 这 一 系列 的 .png 文件 转换 为 动画 。 


13.11 绘制 谱系 图 


问题 
如 何 绘制 一 个 谱系 图 《Dendrogram) 来 观察 数据 是 如 何 层次 聚 类 的 ? 
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方法 
使 用 hclust () 并 画 出 它 的 结果 。 这 可 能 需要 一 些 数据 预 处 理工 作 ， 在 本 例 中 ， 我 们 
首先 要 从 countries 数据 集中 提取 年 份 为 2009 年 的 子 集 ， 为 简单 起 见 ， 还 要 把 包含 
NA 的 行 全 部 删除 ， 然 后 随机 选择 25 行 。 

library (gcookbook) 在 为 了 使 用 数据 集 

着 得 到 2009 年 的 数据 


C2 <- subset (countries，Year==: ) 


单 去 掉 含有 NA 的 行 


c2 <- c2[complete.cases(c2)，] 


随机 选择 25 
#( 设 定 随机 种 
set .seed(201) 

c2 <- c2[sample(i:nrow(c2), 25), ] 





可 重复 性 ) 


c2 

Name Code Year GDP laborrate healthexp infmortality 
6731 Mongolia MNG 2009 1690.4170 72.9 74.19826 27.8 
1733 Canada CAN 2009 39599.0418 67.8 4379.76084 5.2 
5966 Macedonia, FYR MKD 2009 4510.2380 54.0 313.68971 10.6 
10148 Turkmenistan TKM 2009 3710.4536 68.0 77.06955 48.0 


注意 到 行 名 (第 一 列 ) 实质 上 是 随机 数 ， 这 是 因为 行 是 随机 选择 出 来 的 。 在 画 谱系 图 之 
前 我 们 还 需要 再 做 一 些 事情 。 首 先 ， 我 们 需要 设 定 行 的 名 字 一 一 我 们 有 叫做 Name 的 列 ， 
但 行 名 却 是 一 些 随 机 数 〈 我 们 不 是 经 常 使 用 行 名 ， 但 是 对 于 hclust () 函数 ， 行 名 是 必 
不 可 少 的 )。 接 下 来 ， 还 要 去 掉 在 聚 类 中 不 需要 的 列 ， 这 些 列 是 Name、Code 和 Year。 


rownames (c2) <- c2$Name 


c2 <- c2{,4:7] 
c2 

GDP laborrate healthexp infmortality 
Mongolia 1690.4170 72.9 74.19826 27.8 
Canada 39599.0418 67.8 4379.76084 5.2 
Macedonia, FYR 4510.2380 54.0 313.68971 10.6 
Turkmenistan 3710.4536 68.0 77.06955 48.0 


GDP 的 取 值 比 infmortality 大 几 个 数量 级 ， 由 于 这 个 原因 ，infmortality 在 聚 类 中 
的 作用 相对 于 GDP 来 说 就 会 变 得 可 以 忽略 不 计 ， 这 可 能 不 是 我 们 想 要 的 。 为 了 解决 这 
个 问题 ， 要 对 数据 进行 标准 化 : 

c3 <- scale(c2) 

c3 
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GDP laborrate healthexp infmortality 
Mongolia -0.6783472 1.15028714 -0.6341393599 -0.08334689 
Canada 1.7504703 0.59747293 1.9736219974 -0.88014885 


Macedonia, FYR -0.4976803 -0.89837729 -0.4890859471 -0.68976254 
Turkmenistan -0.5489228 0.61915192 -0.6324002997 0.62883892 
attr(,"scaled:center") 
GDP laborrate healthexp infmortality 
12277.960 62.288 1121.198 30.164 
attr(,"scaled:scale") 
GDP laborrate healthexp infmortality 
15607.852864 9.225523 1651.056974 28.363384 


scale() 函数 默认 是 将 每 一 列 相对 于 其 标准 差 进行 标准 化 ， 但 也 可 以 使 用 其 他 方法 。 
至 此 ， 我 们 已 经 做 好 了 画 谱 系 图 的 准备 ， 结 果 如 图 13-19 所 示 : 
hc <- hclust(dist(c3)) 


# 画 树 状 图 
plot (hc) 


关 对 齐 文本 
plot (hc，hang = -1) 


Cluster Dendrogram Cluster Dendrogram 
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图 13-19 左 图 : 谱系 图 右 图 : 文本 对 齐 的 谱系 图 
讨论 
聚 类 分 析 是 在 维 空间 中 把 点 分 配 到 类 的 一 种 简单 方法 在 这 个 例子 中 是 四 维 )。 层 


次 聚 类 分 析 则 将 每 组 分 成 两 个 更 小 的 组 ， 在 这 里 可 以 用 谱系 展示 。 在 层次 聚 类 的 过 程 
中 有 很 多 可 以 控制 的 参数 ， 可 能 有 不 止 一 种 “正确 ”的 方法 可 以 用 来 分 析 你 的 数据 。 


首先 ， 我 们 用 scale () 的 默认 设置 标准 化 了 数据 。 你 可 以 用 不 同 的 方法 标准 化 数据 ， 
或 者 不 标准 化 〈 在 这 个 数据 集 里 面 ， 不 标准 化 数据 会 导致 6DP 相对 于 其 他 变量 占 主导 
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地 位 ， 如 图 13-20 所 示 )。 








和 


p= fy 
HH | 
中 


| 


上 2 
helust fcompleten 


图 13-20 ”未 标准 化 数据 得 到 的 谱系 图 ( 注意 Beight 的 值 很 大 ， 这 主要 是 没有 标准 化 的 GDP 造成 的 ) 
对 于 距离 的 计算 ， 我 们 使 用 的 是 默认 的 方法 一 一 "euclidean"， 这 个 方法 计算 的 
是 点 与 点 之 间 的 欧 氏 距离 ， 还 有 其 他 的 方法 ， 比 如 "maximum",， "manhattan"， 


"canberra", "binary" 和 "minkowski"。 


hclust () 函数 提供 了 几 种 做 聚 类 分 析 的 方法 ， 默 认 的 方法 是 "complete" ; 其 他 可 用 
的 方法 包括 "ward"，"single"，"average"，"mcquitty"，"median" 和 "centroid" 。 


另 见 
输入 ?hclust 来 获取 更 多 关于 不 同 聚 类 方法 的 信息 。 


13.12 绘制 向 量 场 

问题 

如 何 绘制 一 个 向 量 场 vector field)? 

方法 

使 用 geom_segment () 函数 。 在 这 个 例子 中 ， 我 们 用 的 是 isabel 数据 集 。 


1library(gcookbook) # 数据 集 
isabel 
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-83.00000 41.70000 0.035 NA NA NA NA NA 
-83.00000 41.62786 0.035 NA NA NA NA NA 
-83.00000 41.55571 0.035 NA NA Na NA NA 


-62.04208 23.88036 18.035 -12.54371 -5.300128 -0.045253485 -66.96269 13.61749 
-62.04208 23.80822 18.035 -12.56157 -5.254994 -0.020277001 -66.98840 13.61646 
-62.04208 23.73607 18.035 -12.78071 -5,259613 0.005555035 -67.00575 13.82064 
x 和 y 分 别 是 经 度 和 纬度 ，z 是 高 度 ， 单 位 是 千 米 。Vx、vy、vz 是 风速 分 量 在 各 个 方 
向 的 取 值 ， 单 位 是 米 每 秒 ，speed 是 风速 。 
高 度 (z) 范围 是 0.035 一 18.035 km。 在 本 例 中 ， 只 使 用 了 最 低 高 度 的 切片 数据 。 
我 们 使 用 geom_ ent () 来 绘制 这 些 向 量 ( 见 图 13-21)。 每 段 都 有 一 个 起 点 和 一 个 
终点 。 我 们 用 x 和 y 值 作为 每 段 的 起 点 ， 然 后 在 此 基 分 别 加 上 vx 和 vy 的 一 个 比 
例 ， 以 此 作为 终点 。 如 果 不 按 比 例 缩小 这 些 取 值 ， 线 条 就 会 变 得 很 长 : 


t(isabel, z == min(z)) 



















x, y=y)) + 
tl(aes(xend = x + vx 


size ) 二 线段 








20 5 7 65 


13-21 ”向 量 图 的 首次 尝试 一 一 分 辨 率 太 高 ， 但 相对 于 较 IK 的 分 辩 率 ， 它 揭示 出 了 一 些 有 趣 的 模式 





这 个 向 量 场 有 两 个 问题 : 数据 分 辩 率 太 高 不 容易 阅读 ， 而 且 每 段 没 有 箭头 表示 方向 。 为 了 
降低 数据 的 分 辨 率 ， 定 义 一 个 函数 every_n() ， 在 数据 的 每 n 个 值 中 保留 一 个 ， 其 他 的 去 掉 。 
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着 向 量 x 中 每 'by' 个 只 里 面 保留 一 个 
every n <- function(x，by = 2) { 
x <- sort(x) 
x[seq(l, length(x), by = by)] 
} 


上 # x 和 yy 每 四 个 值 保留 一 个 
keepx <- every n(unique (isabel$x), by=4) 
keepy <- every n(unique (isabel$y), by=4) 


上 保留 那些 x 值 在 keepx 中 并 且 y 值 在 keepy 中 的 数据 
islicesub <- subset (islice, x %in% keepx & y Sin% keepy) 


现在 我 们 已 经 得 到 了 数据 的 一 个 子 集 ， 可 以 画 出 带 箭头 的 图 形 ， 如 图 13-22 所 示 : 


# 使 用 arrow()， 需 要 加 载 grid 包 
library (grid) 


# 用 子 集 画 图 ， 笛 头 的 长 度 为 0 .1 cm 
ggplot (islicesub, aes(x=x, y=y)) + 
geom_segment (aes (Xend = x+vx/50, yend = y+vy/50), 
arrow = arrow(length = unit(0,1, "cm")), size = 0,25) 

















图 13-22 ” 带 箭头 的 向 量 图 

讨论 

箭头 的 一 个 影响 是 ， 短 的 向 量 会 表现 得 比 它 实际 长 度 的 比例 更 大 ， 这 会 导致 曲解 数据 ， 
为 了 减轻 这 种 影响 ， 把 速度 映射 到 其 他 属性 上 可 能 是 有 用 的 ， 如 size 〈 线 的 粗细 )、alpha 
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(透明 度 ) 或 colour (颜色 )。 这 里 ， 把 速度 映射 到 透明 度 alpha 上 ( 见 图 13-23 左 图 ): 


# “speed' 列 包含 z 的 部 分 ， 计 算 水 平 速度 
islicesub$speedxy <- sqrt (islicesub$vx^2 + islicesubSvy^2) 


提 映射 速度 到 透明 度 alpha 
ggplot (islicesub, aes(x=x, y=y)) + 
geom_segment (aes (xend = xtvx/50, yend = ytvy/50, alpha = speed), 
arrow = arrow (length = unit(0.1,"cm")), size = 0.6) 


下 面 ， 我 们 把 速度 映射 到 颜色 colour 上 。 我 们 还 加 入 美国 的 部 分 地 图 并 且 使 用 coord_ 
cartesian() (没有 这 部 分 ， 会 展示 整个 美国 地 图 ) 放大 感 兴趣 的 区 域 ， 如 图 13-23 右 图 所 示 : 
# 得 到 美国 地 图 数据 


usa <- map_data("usa") 


# 把 数据 喘 射 到 颜色 上 ， 颜 色 从 "grey80" 到 "darkred" 
ggplot (islicesub, aes(x=x, y=y)) + 
geom_segment (aes (xend = xtvx/50, yend = ytvy/50, colour = speed), 
arrow = arrow(length = unit(0,.1,"cm")), size = 0.6) + 
scale_colour_continuous (low="grey80", high="darkred") + 
geom path (aes (x=long, y=lat, group=group), data=usa) + 
coord cartesian(xlim = range(islicesub$x), ylim = range(islicesub$y)) 





EEEEE 














图 13-23 左 图 : 速度 映射 到 透明 度 上 的 向 量 场 右 图 : 速度 映射 到 颜色 上 的 向 量 场 
isabel 数据 集 是 一 个 三 维 数据 ， 所 以 我 们 可 以 画 一 个 分 面 的 图 形 ， 如 图 13-24 所 示 。 
因为 每 个 分 面 都 很 小 ， 所 以 要 用 比 之 前 更 稀疏 的 子 集 。 


## x 和 yy 中 每 5 个 值 保留 1 个 ，z 中 每 两 个 值 保留 一 个 
keepx <- every_n (unique (isabel$x), by=5) 
keepy <- every n (unique (isabel$y), by=5) 
keepz <- every_n (unique (isabe1$z) ，by=2) 


isub <- subset (isabel, x sins keepx 5 y Sing keepy & z $in% keepz) 
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ggplot (isub, aes(x=x, y=y)) + 
geom segment (aes (xend = xtvx/50, yend = ytvy/50, colour = speed), 
arrow = arrow(length = unit(0.1,"cm")), size = 0.5) + 
scale_colour_continuous (low="grey80", high="darkred") + 
facet wrap( ~ z) 














另 见 
如 果 你 想 用 其 他 调 色 板 ， 参 见 12.6 节 。 
参阅 8.2 节 获得 更 多 关于 扩大 图 形 某 部 分 的 信息 。 


13.13 绘制 QQ 


问题 
如 何 绘制 QQ 图 来 比较 经 验 分 布 和 理论 分 布 ? 


方法 
使 用 qqnorm() 和 正 态 分 布 比较 。 给 qqnorm() 一 个 数值 向 量 ， 在 此 基础 上 用 qqline() 
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加 上 理论 分 布 〈 见 图 13-25): 
library (gcookbook) # 为 了 使 用 数据 集 


# height 的 00 图 
qqnorm (heightweightSheightIn) 
qqline (heightweightSheightIn) 


# age 的 00 图 
qqnorm (heightweightSageYear) 
qqline (heightweight$ageYear) 

















Normal Q-Q Plot Normal Q-Q Plot 
6 
和 oo 
| © 
© 
FE 
EE| 
0 0 
3 2 -1 0 1 2 3 
Theoretical Ouanties 














图 13-25 左 图 : height 的 QQ 图 ， 和 正 态 分 布 很 接近 右 图 : age 的 QQ 图 ,不 是 正 态 分 布 
讨论 
heightIn 的 点 很 接近 理论 线 ， 这 意味 着 它 的 分 布 很 接近 正 态 分 布 。 相 反 ，ageYear 的 


点 远离 理论 线 ， 特 别 是 在 左面 ， 这 表明 分 布 是 有 偏离 的 。 此 外 ， 直 方 图 在 探索 数据 的 
分 布 上 也 是 有 帮助 的 。 


另 见 
查看 ?qqplot 获得 更 多 将 数据 和 其 他 〈 非 正 态 ) 理论 分 布 进行 比较 的 信息 。 
ggplot2 有 一 个 stat_qq() 函数 ， 但 是 没有 提供 画 QQ 线 的 简单 方法 。 


13.14 ”绘制 经 验 累 积分 布 函数 图 


问题 
如 何 画 一 个 数据 集 的 经 验 累 积分 布 函数 图 (ECDF)? 
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方法 
使 用 stat_ecdf () ( 见 图 13-26): 
library(gcookbook) # 为 了 使 用 数据 集 


# heightIn 的 ecdf 
ggplot (heightweight, aes(x=heightIn)) + stat ecdf() 


# ageYear 的 ecdf 
ggplot (heightweight, aes(x=ageYear)) + stat ecdf() 

















60 ”的 
heightin 

图 13-26 。” 左 图 : height 变量 的 ECDF 右 图 : age 变量 的 ECDF 

讨论 


ECDF 表明 了 在 观测 数据 中 ， 小 于 或 等 于 给 定 x 值 的 观测 所 占 的 比例 。 因 为 是 经 验 的 ， 
所 以 累积 分 布线 在 每 个 有 一 个 或 者 更 多 观测 值 的 x 值 处 产生 一 个 阶梯 。 


13.15 ”创建 马赛 克 图 
问题 
如 何 绘 制 一 个 马赛 克 图 来 可 视 化 一 个 列 联 表 ? 


方法 


使 用 ved 包 里 的 mosaic () 函数 。 在 这 个 例子 中 ， 我 们 使 用 的 是 UBAdmi ssion 数据 集 ， 
这 个 数据 集 是 一 个 三 维 的 列 联 表 。 首 先 用 不 同 的 方法 观察 一 下 这 个 数据 集 : 


UCBAdmissions 


,Dept = A 
Gender 
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Rdmit Male Female 
Rdmitted 512 89 
Rejected 313 19 


+»».» [four other Depts] 
r+ Dept =F 
Gender 
Admit Male Female 
Admitted 22 24 
Rejected 351 317 


二 显示 ， 平 销 " 后 的 列 联 表 
ftable (UCBAdmissions) 


Dept A B C D E F 
Admit Gender 


Admitted Male 512 353 120 138 53 22 
Female 89 17 202 131 94 24 
Rejected Male 313 207 205 279 138 351 
Female 19 8 391 244 299 317 


dimnames (UCBAdmissions) 


SRdmit 
[1] "Admitted" "Rejected" 


S$Gender 
[1] "Male" "Female" 


$pept 
[1] whw wBw "Cn wDw npn np" 
三 个 维度 分 别 是 Admit、Gender 和 Dept。 为 了 可 视 化 这 些 变量 之 间 的 关系 〔 见 图 13- 
27)， 使 用 mosaic() 函数 ， 输 入 的 公式 要 包含 在 分 割 数据 中 使 用 的 变量 。 
和 # 可 能 需要 先 安装 包 ，instal1.packages ("ved") 
library (ved) 


# 按照 先 Rdmit 然后 Gender 再 Dept 的 顺序 分 割 数据 

mosaic( ~ Admit + Gender + Dept, data=UCBAdmissions) 
注意 ，mosaic () 是 按照 变量 提供 的 顺序 来 分 割 数据 的 ， 首 先是 录取 状态 ， 然 后 是 性 
别 ， 最 后 是 系 。 从 图 中 可 以 看 出 ， 被 拒绝 的 申请 者 明显 比 被 录取 的 多 。 除 此 之 外 ， 在 
被 录取 的 人 中 ， 男 性 比 女性 多 ， 但 在 被 拒绝 的 人 中 ， 男 性 和 女性 的 比例 差不多 。 但 是 
很 难 比较 每 个 系 的 情况 。 不 同 的 分 割 数据 的 顺序 可 能 会 揭示 不 一 样 的 有 趣 的 信息 。 


另外 一 个 观察 数据 的 方式 是 按照 系 别 、 性 别 和 录取 状态 的 顺序 分 割 数据 ， 如 图 13-28 
所 示 。 这 时 ， 录 取 状 态 是 最 后 一 个 分 离 的 变量 ， 所 以 当 按 照 系 别 和 性 别 分 离 数据 之 
后 ， 每 组 中 录取 和 拒绝 的 单元 正好 在 彼此 的 旁边 。 
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mosaic( ~ Dept + Gender + Admit, data=UCBAdmissions, 
highlightin it", highlighting fill=c ("lightblue", "pink"), 
direction=c 本 

















Mimited 。 Relected AdmitedRelectedAdmmted 。 Rejected 。 Admmed Relected AdmitedRelectedAdmied Feiected 











图 13-28 ” 按 另 一 种 变量 顺序 分 割 数据 的 马赛 克 图 : 首先 系 别 ， 然 后 性 别 ， 最 后 录取 状态 

我 们 还 使 用 颜色 指定 了 高 亮 的 变量 (admit)。 

讨论 

在 前 面 的 例子 中 我 们 还 为 每 个 分 割 的 变量 指定 了 方向 。 其 中 ， 第 一 个 变量 Dept 是 垂直 


分 割 的 ， 第 二 个 变量 Gender 是 水 平分 割 的 ， 第 三 个 变量 admit 是 垂直 分 割 的 。 我 们 选择 
这 三 个 方向 的 原因 是 在 这 个 例子 中 ， 这 样 做 会 比较 容易 比较 每 个 系 里 面 男 女 的 差别 。 
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我 们 还 可 以 使 用 不 同 的 分 割 方向 ， 如 图 13-29 和 图 13-30 所 示 : 


手 另 一 种 可 能 的 分 割 方向 

mosaic( ~ Dept + Gender + Admit, data=UCBAdmissions, 
highlighting="Admit", highlighting fill=c("lightblue", "pink"), 
direction=c("v", "v", "bh")) 


着 这 个 顺序 比较 男 和 女 不 是 很 容易 

mosaic( ~ Dept + Gender + Admit, data=UCBAdmissions, 
highlighting="Admit", highlighting fill=c("iightblue", "pink"), 
direction=c("v", "h", "h")) 





Fomae 。 Male FemaeMale Nae Fomale Mae Female 。 Male 。 Female 








图 13-29 把 Dept 垂直 分 割 ，Gender 垂直 分 割 ，Mdnit 水 平分 割 





Reeced Admied 


Relected Admited 
Admit 


Dept 
C D E 














图 13-30 ”把 Dept 垂直 分 割 ，Gender 水 平分 割 ，Admit 水 平分 割 
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这 里 展示 的 例子 是 辛普森 悖 论 中 的 一 个 案例 ， 把 组 合并 的 时 候 ， 每 个 子 组 中 的 变量 的 
关系 会 改变 (或 者 相反 )! UCBerkeley 表 是 加 利 福 尼 亚 大 学 伯克利 分 校 1973 年 的 录 
取 数 据 。 总 体 来 看 ， 男 性 被 录取 的 比率 高 于 女性 ， 由 于 这 个 原因 ， 学 校 被 起 诉 有 性 别 
偏见 。 但 是 当 每 个 系 分 别 检查 的 时 候 ， 发 现 男女 的 比率 是 差不多 的 。 和 总 体 录取 比率 
不 同 的 原因 是 女性 更 倾向 于 申请 录取 率 低 ， 竞 争 性 强 的 系 。 

在 图 13-28 和 图 13-29 中 ， 你 可 以 发 现在 每 个 系 中 ， 男 女 的 录取 比率 差不多 。 你 也 可 
以 发 现 录取 比率 高 的 系 (A 和 B) 其 申请 者 的 性 别 比 率 非常 不 平衡 : 申请 的 男性 比 女 
性 多 得 多 。 正 如 你 所 看 到 的 ， 以 不 同 的 顺序 和 方向 分 割 数据 会 得 到 数据 不 同 层面 的 展 
示 。 在 图 13-29 中 ， 类 似 图 13-28， 可 以 容易 地 比较 每 个 系 里 和 跨 系 之 间 男 女 的 录取 
率 。 在 图 13-30 中 ， 把 Dept 垂直 分 割 ，Gender 水 平分 割 ，Admit 垂直 分 割 ， 很 难 比 
较 每 个 系 里 男女 的 录取 比率 ， 但 是 容易 比较 跨 系 的 男女 申请 比率 。 


另 见 
查看 ?mosaicplot 可 以 得 到 另外 一 个 画 马赛 克 图 的 函数 。 


PJ. Bickel, E.A. Hammel, and J.W. O’Connell, “Sex Bias in Graduate Admissions: Data 
from Berkeley,” Science 187 (1975): 398-404. 


13.16 ”绘制 饼 图 


问题 

如 何 绘制 一 个 饼 图 ? 

方法 

使 用 pie () 函数 。 在 这 个 例子 中 ( 见 图 13-31)， 我 们 使 用 来 自 MASS 库 里 面 的 survey 


数据 集 。 
library (MASS) # 为 了 使 用 数据 集 
# 得 到 fold 变量 每 个 水 平 的 频数 


fold <- table(survey$Fold) 
fold 





工 on R Neither RonL 
99 18 120 


所 画 饼 图 
pietfold) 


我 们 在 pie () 中 输入 table 类 型 的 对 象 。 我 们 也 可 以 提供 一 个 命名 的 向 量 ， 或 者 一 个 
只 有 数值 的 向 量 和 一 个 标签 向 量 ， 如 下 所 示 : 


pie(c(33， 上 ), labels=c("L on R", "Nei 
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LonR 











图 13-31 一 个 饼 图 
讨论 
饼 图 的 滥用 是 可 视 化 专家 经 常 指责 的 一 个 话题 。 如 果 你 考虑 使 用 饼 图 ， 不 妨 考虑 使 用 


条 形 图 (或 者 堆积 条 形 图 )， 它 们 也 许可 以 更 加 有 效 地 传达 信息 。 尽 管 有 缺点 ， 但 是 
饼 图 有 一 个 非常 重要 的 优点 ， 就 是 每 个 人 都 能 够 读 懂 它 。 


13.17 ”创建 地 图 


问题 
如 何 绘制 一 个 地 图 ? 


方法 

从 maps 包 里 面 获取 地 图 数据 ， 用 geom_polygon () 〈 可 以 用 颜色 填充 ) 或 者 geom_ 
path() 〈 不 能 填充 ) 绘制 。 经 度 和 纬度 默认 是 画 在 直角 坐标 系 中 的 ， 但 是 你 可 以 用 
coord_map () 指定 一 个 投影 。 默 认 的 投影 是 "mercator"( 墨 卡 托 投影 )， 和 直角 坐标 
系 不 一 样 ， 黑 卡 托 投影 中 纬度 线 之 间 的 距离 会 逐渐 发 生变 化 〈 见 图 13-32)。 


library (maps) # 为 了 使 用 地 图 数据 
# 美国 地 图 数据 
states_map <- map_data("state") # 必须 载 入 ggP1ot2 以 使 用 map_data() 


ggplot (states_map, aes(x=long, y=lat, group=group)) + 
geom polygon (fill="white", colour="black") 


插 geom_path ( 没有 填充 ) 和 星 卡 托 投影 ! 
ggplot (states map, aes(x=long, y=lat, group=group)) + 


geom path() + coord map("mercator") 


加 ”需要 mapproj 包 。 一 一 译 者 注 


其 他 图 形 255 

















13-32 上 图 : 一 个 有 填充 的 地 图 “下 图 ; 无 填充 ， 使 用 县 卡 托 投影 的 地 图 
讨论 
map_data () 函数 返回 的 是 一 个 含有 如 下 儿 列 的 数据 框 。 


。 long : 纬度 。 

。 lat : 经 度 。 

。 group : 这 是 每 个 多 边 形 的 分 组 变量 。 一 个 区 域 或 子 区 域 可 能 有 多 个 多 边 形 ， 例 如 : 
如 果 它 含有 岛屿 。 

。 order : 在 一 组 里 面 每 个 点 的 连接 顺序 。 

。 region : 基本 是 国家 和 地 区 的 名 字 ， 也 有 其 他 的 对 象 〈 例 如 一 些 湖 )。 

。 subregion : 一 个 区 域 中 子 区 域 的 名 字 ， 可 能 包含 多 个 组 别 。 例 如 Alaska 子 区 域 包 
含 很 多 岛屿 ， 每 个 都 是 一 组 。 

还 有 很 多 不 同 的 地 图 ， 包 括 world、nz、france、italy、usa《〈 美 国 的 轮廓 ) 、state 

(美国 的 每 个 州 》 和 county (美国 的 每 个 郡 )。 例 如 ， 世 界 地 图 的 数据 如 下 所 示 : 

提 世界 地 图 数据 


world map <- map_data("world") 
world_map 


long lat group order region subregion 
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-133.3664 58.42416 1 1 Canada <NR> 
-132.2681 57.16308 总 2 Canada <NR> 
-132.0498 56.98610 1 3 Canada <HA> 
124.7772 11.35419 2284 27634 Philippines Leyte 
124.9697 11.30280 2284 27635 Philippines Leyte 
125.0155 11.13887 2284 27636 Philippines Leyte 


如 果 你 想 画 世界 地 图 中 某 个 没有 单独 地 图 数据 的 区 域 ， 可 以 首先 查找 区 域 的 名 字 ， 如 下 所 示 : 


sort (unique (world_map$region)) 





"Afghanistan" "Albania" "Algeria" 
"American Samoa" "Andaman Islands" "Andorra" 
"Angola" "Anguilla" "Antarctica" 








"USA' "0SSR" "Vanuatu" 
"Venezuela" "Vietnam" Virgin Islands" 
"Vislinskiy Zaliv" "West Bank™ 
"Western Sahara" "Yugoslavia™" 
"Zaire" "Zimbabwe" 





参 你 可 能 发 现 地 图 有 些 过 时 了 ! 
可 以 从 世界 地 图 中 得 到 指定 区 域 的 地 图 数据 ( 见 图 13-33)。 


euro <- map_data("world", region=c ("UK", " wy， "Netherlands", " ")) 


# Map region to fill color 
ggplot (euro, aes(x=long, y=lat, group=group, fill=region)) + 
geom_polygon (colour=" ) + 

scale fill_brewer (palette="Ser2") + 

scale y_continuous (limits=c (40, 60))+ 

scale x_continuous (limits=c(-25, 25)) 











5 


和 0 


四 


65- 


-20 -ta 0 1 2 











13-33 ”在 世界 地 图 中 绘制 指定 区 域 的 地 图 
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如 果 一 个 区 域 有 单独 的 地 图 ， 如 nz (新西兰 ) ， 那 么 地 图 数据 就 会 比 从 世界 地 图 中 提 
取出 的 数据 的 分 辩 率 高 ， 如 图 13-34 所 示 : 
所 从 世界 地 图 中 得 到 新 西 兰 地 图 数据 


nzl <- map_data("world", region="New Zealand") 
nzl <- subset (nzl，long > 0 5 lat > -48) # 删 除 岛 同 
ggplot (nz1, aes(x=long, y=lat, group=group)) + geom path() 


所 从 新 西 兰 (nz) 地 图 中 得 到 新 西 兰 地 图 数据 
nz2 <- map_data("nz") 
ggplot (nz2, aes(x=long, y=lat, group=group)) + geom path() 

















图 13-34” 左 图 : 从 世界 地 图 中 得 到 的 新 西 兰 地 图 右 图 : 从 新 西 兰 (nz ) 地 图 中 得 到 的 


另 见 

查看 mapdata 包 获得 更 多 地 图 数据 ， 还 有 高 分 辨 率 的 世界 地 图 worldHires。 
查看 map () 函数 ， 快 速 产 生地 图 。 

查看 ?mapproject 获得 地 图 的 投影 方法 。 


13.18 绘制 等 值 区 域 图 


问题 
如 何 创建 一 个 地 图 ， 使 得 不 同 区 域 根据 变量 值 填充 不 同 的 颜色 ? 


方法 
把 变量 值 和 地 图 数据 合并 在 一 起 ， 然 后 把 一 个 变量 映射 到 fill 上 。 
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# 把 USArrests 数据 集 转换 成 正确 的 格式 


crimes <- data.frame (state = 


tolower (rownames (USArrests)), 


state Murder Assault UrbanPop Rape 


crimes 
Alabama alabama 
Alaska alaska 
Arizona arizona 


West Virginia west virginia 
Wisconsin wisconsin 


Wyoming wyoming 





library (maps) # 为 了 使 用 地 
states map <- map_data("st 


提 合并 数据 集 


图 数据 


13.2 236 
10.0 263 
8.1 294 
5.7 81 
2.6 53 
6.8 161 


crime map <- merge(states map, crimes, by.x="r 


58 21.2 
48 44.5 
80 31.0 


39 9.3 
66 10.8 
60 15.6 


", by.y="st 


才 合并 之 后 ， 顺 序 发 生 了 变化 ， 可 能 会 导致 多 边 形 位 置 不 对 ， 所 以 要 对 数据 排序 


head (crime_map) 


region long 
alabama -87.46201 30.38968 
alabama -87.48493 30.37249 
alabama -87.95475 30.24644 
alabama -88.00632 30.24071 
alabama -88.01778 30.25217 
alabama -87.52503 30.37249 


4 
2 
13 
14 
15 
3 


PP PP PP 


library(plyr) # 为 了 使 用 arrange() 函数 


着 按照 group，order 排序 


全 人 人 


crime_map <- arrange (crime map, group, order) 


head (crime_map) 


region long 
alabama -87.46201 30.38968 
alabama -87.48493 30.37249 
alabama -87.52503 30.37249 
alabama -87.53076 30.33239 
alabama -87.57087 30.32665 
alabama -87.58806 30.32665 


1 


rorpppp 
au ww 


人 


13.2 
13.2 
13.2 
13.2 
13.2 
13.2 


13.2 
13.2 
13.2 
13.2 
13.2 
13.2 


236 
236 
236 
236 
236 
236 


lat group order subregion Murder Assault 


236 
236 
236 
236 
236 
236 


USArrests) 





lat group order subregion Murder Assault UrbanPop Rape 


58 21.2 
58 21.2 
58 21.2 
58 21.2 
58 21.2 
58 21.2 


UrbanPop Rape 
58 21.2 
58 21.2 
58 21.2 
58 21.2 
58 21.2 
58 21.2 


当 数 据 的 格式 正确 时 ， 就 可 以 画 出 图 形 ( 见 图 13-35)， 把 其 中 一 列 数 值 映射 到 fi1l 上 : 





ggplot (crime map, aes( 
geom_polygon (colour="E 
coord_map ("F nic") 


) + 


ong, y=lat, group=group, fill=Assault)) + 
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图 13-35 ”将 一 个 变量 映射 到 fi11 上 的 地 图 
讨论 
前 面 的 例子 用 的 是 默认 的 颜色 标 度 ， 从 深蓝 渐变 到 浅 蓝 。 如 果 你 想 展 示 变 量 值 是 如 何 
从 某 个 中 点 值 向 外 发 散 的 ， 可 以 用 scale_fill_gradient2()， 如 图 13-36 所 示 ;: 
ggplot (crimes，aes (map_id = state, fill=Assault)) + 
geom map(map = states map, ¢ J 二 
scale fill gradient2(low="$ ", mid=", ", high=" 
midpoint=median( mes$Assault)) + 


expand_limits(x = states map$long, y = states map$lat) + 
coord_map{" 时 















Assauht 
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13-36 ”使 用 发 散 的 颜色 标 度 


前 面 的 例子 把 连续 取 值 映射 到 fi11 上 ， 但 是 我 们 也 可 以 用 离散 取 值 。 有 些 时 候 离散 的 取 值 
更 容易 解释 。 例 如 ， 我 们 可 以 把 取 值 按照 分 位 数 进行 分 类 。 展 示 分 位 数 ， 如 图 13-37 所 示 : 
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# 找到 分 位 数 的 边界 
qa <- quantile(crimes$Assault, c(0, 0.2, 0.4, 0.6, 
qa 


0% 20% 40% 60% 80% 100% 
45.0 98.8 135.0 188.8 254.2 337.0 






打 加 入 一 个 分 位 数 类 
crimes$Assault q <- cut (crimes$Assault, qa, 
labels=c (" 和 Ny 


include. lowest=TRUE) 


crimes 

state Murder Assault UrbanPop Rape Assault q 
Alabama alabama 13.2 236 58 21.2 60-80% 
Alaska alaska 10.0 263 48 44,5 80-100% 
Wisconsin wisconsin 2.6 53 66 10.8 0-20% 
Wyoming wyoming 6.8 161 60 15.6 40-60% 


# 产生 一 个 有 5 个 离散 取 值 的 调 色 板 
pal <- colorRampPalette (c("#559999"，"grey80"， 
pal 





"#559999" "#90B2B2" "#CCCCCC" "#C3986B" "#BB650B" 


ggplot (crimes, aes(map id = state, fill=Assault q)) + 
geom map (map = states map, colour=" ) + 
scale_fill manual (values=pal) + 


")) (5) 


expand_limits (x = states map$long, y = states map$lat) + 


"y, 








coord_map(" ") + 
labs (fill=" 
要 Assault Rate 
Percentile 
45- 
0-20% 
407 
20-40% 
>35- 
40-60% 
»] 6o-soy 
中 80-100% 
-120 -100 -80 
x 








13-37 ”离散 数值 的 等 值 区 域 图 


另外 一 个 画 等 值 区 域 图 (Choropleth Map) 的 方法 是 使 用 geom_map () ， 它 不 需要 把 变量 





取 值 和 地 图 数据 合并 起 来 。 因 此 ， 这 个 方法 可 以 比 之 前 描述 的 方法 更 快 地 生成 地 图 。 
在 这 个 方法 中 ， 地 图 数据 框 中 必须 有 lat (经 度 ) 、long (纬度 ) 和 region ( 
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在 数值 数据 框 中 ， 必 须 有 一 列 能 够 和 地 图 数据 框 的 region〈 区 域 ) 列 匹 配 上 ， 并 且 这 
一 列 要 映射 到 map_id 图 形 属性 上 。 例 如 ， 下 面 的 代码 和 前 面 的 例子 效果 相同 : 


# crimes 中 "state' 列 要 和 states_map 中 的 region' 列 匹配 

ggplot (crimes, aes(map id = state, fill=Assault)) + 
geom_map (map = states map) + 
expand limits(x = states map$long, y = states map$lat) + 
coord_map ("polyconic") 


注意 ， 我 们 还 需要 用 expand_limits () ， 这 是 因为 和 大 多 数 几何 对 象 不 一 样 ，geom_ 
map () 不 能 自动 设 定 x 和 y 的 界限 ， 使 用 expand_limits() 可 以 使 得 经 纬度 包含 x 和 
y 值 (另外 一 种 能 够 得 到 相同 结果 的 方法 是 用 ylim() 和 xlim() )。 

另 见 

将 数据 合 加 在 一 个 地 图 上 的 方法 ， 参 见 13.12 节 。 

更 多 使 用 连续 颜色 的 方法 ， 参 见 12.6 节 。 


13.19 ”创建 空白 背景 的 地 图 


问题 
何如 把 地 图 中 的 背景 元 素 去 掉 ? 
方法 
首先 ， 保 存 下 面 的 主题 : 
入 创建 一 个 去 挤 了 很 多 背景 元 素 的 主题 
theme_clean <- function(base size = 12) { 


require(grid) # unit() 函数 需要 
theme_grey (base_size) %+replace%® 


thenme( 
axis.title = element_blank(), 
axis.text = element_blank(), 
panel.background = element blank(), 
panel.grid = element_blank(), 


axis.ticks.length = unit (0, "cm"), 
axis,ticks.margin = unit(0, " 
panel .margin = unit (0, 
plot.margin = unit(c(0, 0, 0, 0), "lines"), 
complete = TRUE 
) 
} 


然后 把 它 加 在 地 图 上 〔 见 图 13-38)。 在 这 个 例子 中 ， 我 们 把 它 加 在 了 13.18 节 中 创建 
的 一 个 等 值 区 域 图 上 。 
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ggplot (crimes, aes (mal 
geom map (map = 







id = state, fill=Assault q)) + 
tes_map, colour=" + 


expand _ 
coord_map ( 


ts(x = states map$long, y = states map$lat) + 
) + 


labs (fill=" entile") + 
theme_clean () 











13-38 ”空白 背景 的 地 图 


- 


在 R2.15.2 以 及 更 早 的 版 本 中 存在 一 个 缺陷 ， 可 能 会 出 现下 面 这 样 的 错误 : 


Error in grid.Call.graphics(L setviewport, pyp, TRUE) : 
Non-finite location and/or size for viewport 


出 现 这 样 错误 的 原因 是 一 些 维度 的 和 的 长 度 是 0，grid 图 形 引擎 不 能 很 好 地 处 
理 这 个 问题 。 这 个 缺陷 应 该 在 R 3.0 中 被 修复 了 。 如 果 你 使 用 的 及 出现 了 这 
个 问题 ， 在 改变 主题 的 时 候 请 使 用 axis.ticks.margin = unit(0.01，"cm")， 


而 不 是 axis.ticks.margin = unit (0, "cm")。 





讨论 

在 有 些 地 图 中 ， 包 含 前 后 相关 的 信息 是 很 重要 的 ， 例 如 经 度 和 纬度 。 在 另外 一 些 地 图 
中 ， 这 些 信息 却 不 再 重要 了 一 一 它们 反而 会 分 散 所 传达 的 信息 。 在 图 13-38 中 ， 观 察 
者 可 能 不 关心 各 个 州 的 经 度 和 纬度 。 他 们 可 以 通过 形状 和 相对 位 置 判断 这 些 州 ， 并 且 
即使 他 们 无 法 判断 ， 经 度 和 纬度 也 没有 什么 帮助 。 


13.20 ”基于 空间 数据 格式 ( shapefile ) 创建 地 图 


问题 
如 何 基 于 Esri shapefile 创建 地 图 ? 
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方法 
用 maptools 包 中 的 readshapePoly() 载 入 空间 数据 文件 ， 用 fortify() 把 数据 转化 成 
数据 框 的 格式 ， 然 后 画图 ( 见 图 13-39): 

library (maptools) 

所 载 入 空间 数据 并 转化 成 数据 杠 


uk_shp <- readshapePoly("G: 
uk_map <- fortify (uk_shp) 





ggplot (uk_map, aes(x = long, y = lat, group=group)) + geom path() 

















图 13-39 从 shapefile 创建 的 地 图 


讨论 
Esri shapefile 是 一 种 很 常用 的 地 图 数据 ，readShapePoly() 函数 读 入 空间 数据 文件 ， 
返回 一 个 SpatialPolygonsDataFrame 对 象 : 


uk_shp <- readShapePoly("GBR_adm/ 





## 查看 该 对 象 的 格式 
str (uk_shp) 


Formal class 'SpatialPolygonsDataFrane' [package "sp"] with 5 slots 


vv data ydata.frame': 192 obs. of 11 variables: 
“$IDO : int [1;192] 239 239 239 239 239 239 239 239 239 239 ... 
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。..$ IS0 
$NAME 0 
sa 
. [lots more stuff] 





.8 proj4string:Formal class 'CRS' 


.8 projargs: chr NA 





把 它 转 化 为 常规 的 数据 框 : 
uk_map <- fortify(uk_shp) 
uk_map 
long 

-6.210473 54.43324 1 FALSE 
.166388 54.44416 2 FALSE 
165556 54.43417 3 FALSE 
053567 53.10680 57 FALSE 
991725 53.13901 58 FALSE 

-2.956809 53.14467 59 FALSE 


: Factor w/ 1 level "GBR": 1111111111... 
: Factor w/ 1 level "United Kingdom": 1 1 11111111... 
: int [1:192] 2222222222... 


[package "sp"] with 1 slots 


lat order hole piece group id 


1 0.1 0 
1 0.1 0 
1 0.1 0 


1 191.1 191 
1 191.1 191 
1 191.1 191 


实际 上 ， 也 可 以 直接 在 ggplot () 中 输入 SpatialPolygonsDataFrame 对 象 ， 这 里 自动 


使 用 了 fortify() : 


# 直接 在 ggplot () 中 输入 SpatialPolygonsDataFrame 

ggplot (uk_shp, aes(x=long, y=lat, group=group)) + geom path() 
尽管 这 个 代码 更 加 简单 ， 但 是 你 可 能 还 是 想 自己 用 fortify () 转化 数据 。 这 会 使 你 更 
容易 查看 输入 ggplot () 中 的 数据 的 结构 ， 或 者 把 该 数据 框 和 其 他 数据 集合 并 。 


另 见 


这 里 使 用 的 空间 数据 没有 包含 在 gcookbook 包 中 。 该 数据 集 和 其 他 空间 数据 集 都 可 以 在 


这 里 下 载 得 到 : http://www.gadm.org/。 
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形 用 以 展示 


[到 


输出 医 


- 般 而 言 ， 数 据 可 视 化 为 两 个 目标 服务 ， 发 现 和 沟通 。 在 发 现 阶 段 ， 你 会 创建 探索 性 
的 图 形 ， 而 在 这 样 做 的 时 候 ， 能 够 快速 尝试 不 同 的 可 视 化 方式 是 比较 重要 的 。 在 沟通 
阶段 ， 你 会 把 你 的 图 形 呈 现 给 他 人 。 当 你 做 这 件 事 的 时 候 ， 往 往 需要 微调 图 形 的 外 观 
(在 前 面 的 章节 已 有 叙述 )， 并 且 经 常 需要 将 这 些 图 形 放置 到 你 的 计算 机 屏幕 以 外 的 地 
方 。 本 章 就 是 关于 后 一 部 分 的 : 保存 你 的 图 形 以 使 它们 能 够 被 呈现 在 文档 中 。 


14.1 输出 为 PDF 矢量 文件 


问题 

如 何 为 你 的 图 形 创建 PDF 格式 的 输出 ? 

方法 

有 两 种 方法 输出 PDF 文件 。 一 种 方法 是 ， 使 用 pdf () 打开 PDF 图 形 设 备 ， 绘 制图 形 ， 
然后 使 用 dev.off () 关闭 图 形 设备 。 这 种 方法 适用 于 R 中 的 大 多 数 图 形 ， 包 括 基础 图 
形 和 基于 网 格 的 图 形 ， 如 那些 由 ggplot2 和 lattice 创建 的 图 形 : 


宽度 ) 和 height (高 度 ) 的 单位 为 英寸 






pdf (™ , width=4, height=4) 








# 绘制 图 形 
plot (mtcars$wt, mtcars$mpg) 


print (ggplot (mtcars, aes (x=wt, y=mpg)) + geom point()) 





dev.off() 
如 果 你 绘制 的 图 形 多 于 一 幅 ， 则 每 一 幅 将 在 PDF 输出 中 列 于 独立 的 一 页 。 注 意 ， 我 们 针 
对 ggplot 对 象 调用 了 print () ， 以 确保 这 段 代 码 即使 是 在 一 段 脚 本 中 也 能 够 输出 图 形 。 
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width〔 宽 度 ) 和 height (高 度 ) 的 单位 为 英寸 所以， 要 以 厘米 为 单位 指定 长 宽 ， 
必须 手动 执行 转换 : 


# 8x8 cm 
pdf ("myplor .pdf", width=6/. , height=8/2.54) 


如 果 你 使 用 某 个 脚本 来 创建 图 形 ， 而 在 创建 图 形 的 过 程 中 抛 出 了 一 个 错误 ， 则 R 可 能 
无 法 执行 到 dev.off () 这 一 步调 用 ， 并 可 能 停留 在 PDF 设备 仍然 开启 的 状态 。 当 这 种 
情况 发 生 时 ， 直 到 你 去 手动 调用 dev.off () 之 前 ，PDF 文件 将 无 法 正常 打开 : 


如 果 你 使 用 ggplot2 创建 图 形 ， 那 么 使 用 ggsave () 会 简单 一 些 。 此 函数 可 以 简单 地 保 
存 使 用 ggplot () 创建 的 最 后 一 幅 图 形 : 


ggplot (mtcars, aes(x=wt, y=mpg)) + geom_point () 


着 帕 认 单位 为 英寸 ， 不 过 也 可 指定 单位 
ggsave ("my ", width=6, height=9, units="cm") 


使 用 ggsave () 时 ， 就 无 需 打印 ggplot 对 象 了 ， 并 且 如 果 在 创建 或 保存 图 形 时 出 现 了 
错误 ， 也 无 需 手动 关闭 图 形 设备 。 不 过 ，ggsave () 不 能 用 于 创建 多 页 的 图 形 。 

讨论 

当 你 的 目的 是 输出 到 供 打印 的 文档 时 ，PDF 文件 通常 是 最 佳 选择 。 这 种 格式 可 以 与 LaTeX 


轻松 配合 ， 而 且 可 以 用 于 华 果 Keynote 软件 创建 的 演示 幻灯 片 中 ， 但 微软 的 软件 可 能 难以 导 
入 这 种 格式 的 文件 (参见 143 节 以 了 解 关于 如 何 创建 可 被 导入 微软 软件 的 矢量 图 形 的 细节 )。 


PDF 文件 一 般 也 比 位 图 文件 ， 如 便携 式 网 络 图 形 (PNG) 文件 更 小 ， 因 为 PDF 文件 包含 
的 是 一 系列 的 指令 ， 如 “从 这 里 到 那里 画 一 条 直线 ”"， 而 不 是 关于 每 个 像素 的 颜色 信息 。 
不 过 ， 也 存在 位 图 文件 更 小 的 情况 。 例 如 ， 如 果 你 有 一 幅 存在 严重 遮盖 的 散 点 图 ， 则 PDF 
文件 可 能 会 比 PNG 文件 大 得 多 一 一 虽然 大 多 数 点 都 无 法 彼此 分 清 ，PDEF 文件 却 将 仍然 包含 
绘制 每 一 个 点 的 指令 ， 反 之 ， 位 图 文件 将 不 会 包含 这 些 元 余 的 信息 。 参 见 55 节 中 的 示例 。 


另 见 
如 果 你 希望 手动 编辑 PDF 或 SVG 文件 ， 参 见 14.4 节 。 


14.2 输出 为 SVG 矢量 文件 

问题 

如 何 为 你 的 图 形 创建 可 缩放 矢量 图 形 (SVG) 格式 的 输出 ? 
方法 

SVG 文件 在 创建 和 使 用 的 方法 上 与 PDF 文件 基本 相同 : 
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svg ("myplot ", width=4, height=4) 
plot(...) 


dev.off() 

# 使 用 ggsave() 

ggsave ("mypl ", width=5, height=8, units="cm") 
讨论 


当 涉及 导入 图 像 时 ， 某 些 程序 可 能 在 处 理 SVG 方面 比 PDF 要 好 些 ， 反 之 亦 然 。 举 例 
来 说 ，Web 浏览 器 一 般 有 着 更 好 的 SVG 支持 ， 而 文档 创建 程序 ， 如 LaTeX， 则 一 般 
有 着 更 好 的 PDF 支持 。 


14.3 ”输出 为 WMF 矢量 文件 


问题 
如 何 为 你 的 图 形 创建 Windows 图 元 文件 “WMEF) 格式 的 输出 ? 


方法 





但 这 种 格式 的 图 形 文件 只 


WMF 文件 在 创建 和 使 用 的 方法 上 与 PDF 文件 基本 相同 
能 在 Windows 上 创建 
win.metafile ("myplot .wnf", width=4, height=4) 


plot(,..) 
dev.off() 


nf", width=8, height=8, units="cm") 





讨论 
Windows 下 的 程序 ， 如 Microsoft Word 和 PowerPoint 对 于 PDF 文件 的 导入 支持 较 差 ， 
但 是 这 些 程序 都 是 原生 支持 WMF 格式 的 。WMEF 格式 的 一 个 缺点 是 不 支持 透明 (alpha 
通道 )。 


14.4 ”编辑 矢量 格式 的 输出 文件 


问题 
如 何 打开 矢量 格式 的 输出 文件 以 用 于 最 终 的 编辑 ? 


加 使 用 CRAN 上 devEMF 包 提供 的 emE() 设备 ， 读 者 也 可 在 Linux 或 OSX 下 创建 Windows 图 元 格式 的 
文件 。 关 于 这 种 格式 的 更 多 评论 ， 可 以 参见 http://cos.name/cn/topic/109475。 一 一 译 者 注 
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方法 
有 时 为 了 展示 图 形 ， 我 们 需要 对 一 幅 图 的 外 观 进行 最 终 的 微调 。 你 可 以 使 用 出 色 的 自 
由 软件 Inkscape 或 商业 软件 Adobe Illustrator 打开 PDF 和 SVG 文件 。 


讨论 
当 你 使 用 Inkscape 打开 PDF 文件 时 ， 字 体 支 持 可 能 是 一 个 问题 。 一 般 来 说 ， 使 用 PDF 设 
备 绘制 的 点 对 象 将 被 编码 为 Zapf Dingbats 字体 中 的 符号 。 这 样 在 你 希望 使 用 像 Illustrator 


或 Inkscape 一 类 的 编辑 器 打开 这 些 文件 时 可 能 会 有 问题 ;举例 来 说 ， 点 可 能 会 显示 为 
字母 q， 如 图 14-1 所 示 ， 因 为 这 正 是 实心 圆 形 项 目 符号 在 Zapf Dingbats 中 对 应 的 字母 。 

















图 14-1 在 Inkscape 中 打开 后 对 点 符号 的 糟糕 转换 一 一 同时 注意 到 文字 的 间距 也 略 有 问题 
要 避免 这 个 问题 ， 设 置 参数 useDingbats=FALSE 即 可 。 这 将 使 得 圆圈 被 绘制 为 圆圈 而 
不 是 字体 中 的 字符 : 


pdf ("myplot .pdf", width=4, height=4, useDingbats=FALSE) 





## 或 者 


ggsave ("nypl 


即使 进行 如 上 操作 ，Inkscape 在 字体 方面 可 能 依然 存在 一 些 问 题 。 你 可 能 





df", width=4, height=4, useDingbats=FALSE) 


。 已 经 注意 到 了 图 14-1 中 的 字体 看 起 来 不 太 对 。 这 是 因为 Inkscape( 0.48 版 本 ) 
无 法 找到 Helvetica 字体 ， 并 使 用 Bitstream Vera Sans 字体 替代 了 前 者 。 一 
种 临时 解决 方案 是 复制 Helvetica 字体 文件 到 你 的 字体 库 中 。 举例 来 说 ， 在 
Mac OS X 上 ， 在 终端 窗口 中 执行 cp /System/Library/Fonts/Helvetica， 
dfont ~/Library/Fonts/ 即 可 ， 当 提示 说 有 字体 冲突 时 ， 点 击 “ 忽 略 冲 
突 ”。 在 完成 以 后 ，Inkscape 就 应 该 可 以 正常 地 显示 Helvetica 字体 了 。 
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14.5 ”输出 为 点 阵 ( PNG/TIFF ) 文件 


问题 
如 何 创建 点 阵 格式 的 图 形 ， 并 写 入 到 PNG 文件 中 ? 


方法 
有 两 种 方法 可 以 输出 PNG 点 阵 文件 。 一 种 方法 是 使 用 png () 打开 PNG 图 形 设 备 ， 绘 
制图 形 ， 然 后 使 用 dev .off () 关闭 设备 。 这 种 方法 对 于 R 中 的 多 数 图 形 都 有 效 ， 包 括 
基础 图 形 和 基于 网 格 的 图 形 ， 如 那些 由 ggplot2 和 lattice 创建 的 图 形 : 

# width (宽度 ) 和 height (高 度 ) 的 单位 为 像素 

png ("myplot .png", width=400, height=400) 


# 绘制 图 形 
plot (mtcarsSwt，mtcarsSmpg) 
dev.off() 
要 输出 多 幅 图 形 ， 可 在 文件 名 中 加 入 sd。 对 于 后 续 图 形 ， 这 个 位 置 将 被 1、2、3 等 替代 : 
间 width (宽度 ) 和 height (高 度 ) 的 单位 为 像素 
png ("myplot-%d.png", width=400, height=400) 


plot (mtcars$wt, mtcars$mpg) 

print (ggplot (mtcars, aes(x=wt, y=mpg)) + geom point()) 

dev.off () 
注意 ， 我 们 针对 ggplot 对 象 调用 了 print () ， 以 确保 这 段 代码 即使 是 在 一 段 脚本 中 时 
也 能 够 输出 图 形 。 
width〔 宽 度 ) 和 height (高 度 ) 的 单位 为 像素 ， 而 默认 的 输出 分 辨 率 为 每 英寸 72 像 
素 (72 ppi)。 这 一 分 辩 率 适合 在 屏幕 上 显示 ， 但 会 在 打印 时 显得 模糊 且 有 锯齿 。 


对 于 高 质量 的 打印 输出 ， 分 辨 率 应 至 少 为 300 ppi。 图 14-2 显示 了 相同 图 形 的 一 部 分 
在 不 同 分 辩 率 下 的 效果 。 在 本 例 中 ， 我 们 将 使 用 300 ppi 的 设置 ， 并 创建 一 个 4 英 
寸 X4 英 寸 的 PNG 文件 : 

中 生 - 杨 4 关 二 x4 英寸 300 ppi 图 像 的 高 度 和 宽度 《以 像素 为 单位 》 


png("myplot.png", width=4*ppi, height=4*ppi, res=ppi) 
plot (mtcars$wt, mtcars$mpg) 
dev.off () 


如 果 你 使 用 某 个 脚本 来 创建 图 形 ， 而 在 创建 图 形 的 过 程 中 抛 出 了 一 个 错误 ， 则 R 可 能 无 
法 执行 到 dev.off () 这 一 步调 用 ， 并 可 能 停留 在 PNG 设备 仍然 开启 的 状态 。 当 这 种 情况 
发 生 时 ， 直 到 你 去 手动 调用 dev.off () 之 前 ，PNG 文件 将 无 法 用 查看 程序 正常 地 打开 : 
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如 果 你 使 用 ggplot2 创建 图 形 ， 那 么 使 用 ggsave () 会 简单 一 些 。 此 函数 可 以 简单 地 保 
存 使 用 ggplot () 创建 的 最 后 一 幅 图 形 。 你 可 以 以 英寸 而 不 是 以 像素 为 单位 指定 图 形 
的 宽度 和 高 度 ， 并 指定 使 用 的 ppi 数值 : 


ggplot (mtcars, aes(x=wt, y=mpg)) + geom point () 





英寸 ， 不 过 也 可 以 指定 其 他 单位 
g", width=8, height=8, unit="cm", dpi=300) 





间 默认 的 宽 高 单 


ggsave ("my! 

















图 14-2 从 左 至 右 ; 72、150 和 300 ppi 的 PNG 输出 (实际 大 小 ) 


使 用 ggsave() 时 ， 无 需 打印 ggplot 对 象 ， 并 且 如 果 在 创建 或 保存 图 形 时 出 现 了 错误 ， 
也 无 需 手动 关闭 图 形 设备 。 


虽然 这 个 参数 名 为 dpi， 但 它 实际 上 控制 的 却 是 每 英寸 的 像素 数 (pixels 
per inch，ppi )， 而 非 每 英寸 的 点 数 ( dots per inch，dpi )。 在 印刷 中 泻 染 一 
”个 灰色 像素 时 ， 我 们 是 使 用 许多 黑色 墨水 的 小 点 来 输出 它 的 一 一 因此 印刷 
输出 拥有 的 每 英寸 点 数 要 高 于 每 英寸 像素 数 。 





讨论 

R 也 支持 其 他 的 点 阵 图 形 格式 ， 如 BMP、TIFF 和 JPEG， 但 其 实 真 的 没有 太 多 理由 去 
使 用 这 些 格式 而 不 去 使 用 PNG 格式 。 

点 阵 图 形 具体 外 观 视 平台 而 异 。 与 R 中 的 PDF 输出 设备 跨 平台 演 染 一 致 的 特点 不 同 
的 是 ， 点 阵 输出 设备 可 能 在 Windows、Linux 和 Mac OS X 上 对 相同 图 形 泻 染 出 不 同 的 
效果 。 甚 至 在 相同 类 型 的 操作 系统 中 也 可 能 会 有 差异 。 

不 同 的 平台 对 字体 的 泻 染 不 同 ， 某 些 平台 会 对 线条 进行 抗 锯齿 《平滑 ) 处 理 ， 而 其 他 平 
台 可 能 不 会 。 某 些 平台 支持 alpha 通道 透明度 )， 而 其 他 平台 可 能 并 不 支持 。 如 果 你 的 平 
台 缺 乏 对 像 抗 锯齿 和 alpha 通道 之 类 特性 的 支持 ， 可 以 使 用 Cairo 包 中 的 cairoPNG () 设备 : 
ro") 志 只 需 安装 一 次 





install.packages(” 
CairoPNG ("myF 
plot(...) 
dev.off() 


尽管 cairoPNG() 并 不 能 保证 跨 平台 精确 一 致 的 泻 染 (字体 可 能 不 会 完全 相同 )， 它 还 
是 支持 如 抗 锯齿 和 alpha 通道 这 样 的 特性 。 
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修改 分 辩 率 会 影响 图 形 对 象 ， 如 文本 、 线 条 和 点 这 类 图 形 对 象 的 大 小 〈 以 像素 为 单 
位 )。 举 例 来 说 ， 一 幅 6 英寸 X6 英 寸 大 小 ，75 ppi 的 图 像 在 以 像素 衡量 的 宽 高 与 一 幅 
3 英寸 X3 英寸 ，150 ppi 的 图 像 是 相同 的 ， 但 外 观 是 不 同 的 ， 如 图 14-3 所 示 。 这 些 图 像 
均 为 450 像素 X450 像素 。 和 这 里 一 样 ， 当 在 计算 机 屏幕 上 显示 时 ， 它 们 大 小 几乎 相同 。 


一 一 二 


世相 | 


时 | 
I 

















图 14-3 左 图 : 6 英寸 x6 英 寸 75 ppi 的 图 像 右 图 : 3 英寸 x3 英寸 150 ppi 的 图 像 


14.6 在 PDF 文件 中 使 用 字体 


问题 
如 何在 PDF 文件 中 使 用 由 R 提供 的 基本 字体 以 外 的 字体 ? 


方法 " 

extrafont 包 可 用 于 创建 包含 其 他 字体 的 PDF 文件 。 

这 个 过 程 涉及 许多 步骤 ， 首 先是 一 些 一 次 性 的 软件 安装 和 配置 。 下 载 并 安装 Ghostscript， 
然后 在 R 中 执行 以 下 命令 : 


install.packages ("extrafont") 
library (extrafont) 


查找 并 保存 系统 中 已 安装 字体 的 信息 
font_import () 


## 列 出 字体 
fonts () 


在 一 次 性 的 安装 和 设置 完成 后 ， 需 要 你 在 每 个 新 的 R 会 话 中 执行 的 是 : 

@@ ”目录 更 好 的 解决 方法 是 使 用 抒 怡 轩 开 发 的 showtext 包 ， 该 包 可 以 非常 简单 、 灵 活 地 在 各 种 图 形 设备 
中 添加 字体 ， 具 体 参见 COS 主 站 文章 《showtext : 字体 ， 好 玩 的 字体 和 好 玩 的 图 )， 地 址 : http://cos. 
name/2014/01/showtext-interesting-fonts-and-graphs/。 一 一 译 者 注 
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library (extrafont) 
# 在 RR 中 注册 字体 
loadfonts() 


关 在 Wndows 上 ， 你 可 能 需要 指定 Ghostscript 的 安装 位 置 
赴 (根据 你 的 Ghostscript 安装 位 置 调整 对 应 的 路 径 ) 
Sys.setenv (R_GSCMD = "C:/Program Files/gs/gs9.05/bin/gswin32c.exe") 


最 后 ， 你 可 以 创建 PDF 文件 并 向 其 中 嵌入 字体 ， 如 图 14-4 所 示 : 


library (ggplot2) 

ggplot (mtcars, aes(x=wt, y=mpg)) + geom point() + 
ggtitle("Title text goes here") + 
theme (text = element text (size = 16, family="impac:")) 


ggsave ("myplot .pdf", width=4, height=4) 


embed_fonts ("myplot .pdf") 





i 














图 14-4 嵌入 了 Impact 字体 的 PDF 输出 


讨论 

在 R 中 使 用 字体 可 能 会 很 困难 。 某 些 输出 设备 ， 如 Mac OS X 中 的 屏幕 显示 设备 quartz 
可 以 显示 计算 机 上 已 安装 的 任意 字体 。 其 他 输出 设备 ， 如 Windows 上 的 默认 png 设备 ， 
却 无 法 显示 系统 字体 。 

此 外 ，PDF 文件 在 涉及 字体 的 方面 也 有 自己 的 怪异 之 处 .PDF 规范 中 指定 了 14 种 
“核心 ”字体 。 这 些 字体 是 每 个 PDF 泻 染 器 都 拥有 的 ， 其 中 包括 标准 字体 ， 如 Times、 
Helvetica 和 Courier。 如 果 你 创建 的 PDF 中 使 用 了 这 些 字体 ， 则 任何 PDF 演 染 器 都 应 
该 可 以 正确 地 显示 它 。 

但 是 如 果 你 希望 使 用 除了 这 些 核心 字体 以 外 的 某 种 字体 ， 则 无 法 保证 某 个 设备 上 的 
PDF 泻 染 器 拥有 这 种 字体 ， 所 以 你 无 法 确认 这 种 字体 是 否 能 够 在 其 他 计算 机 或 打印 机 
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上 正确 地 显示 或 打印 。 为 了 解决 这 个 问题 ， 非 核心 字体 可 以 被 嵌入 到 PDF 中 ; 换 句 话 
说 ，PDF 文件 本 身 可 以 包含 一 份 你 希望 使 用 字体 的 副本 。 

如 果 你 在 一 个 PDF 文档 中 放置 了 多 幅 PDF 图 形 ， 则 可 能 会 希望 在 最 终 的 文档 中 嵌入 
相应 的 字体 而 不 是 在 每 幅 图 形 中 都 嵌入 一 次 。 这 样 可 以 使 得 最 终 的 文档 小 一 些 ， 因 为 
字体 只 被 嵌入 了 一 次 ， 而 不 是 每 幅 图 形 都 嵌入 一 次 。 

使 用 R 来 嵌入 字体 可 能 是 一 个 棘手 的 过 程 ， 不 过 extrafont 包 已 经 蔡 你 处 理 了 许多 讨 
厌 的 细节 。 


篇 一 在 写作 本 段 之 时 ，extrafont 仅 可 导入 TrueType ( .ty) 字体 ， 但 它 可 能 会 
在 将 来 支持 其 他 常见 的 字体 格式 ， 如 OpenType (.orr) 字体 。 





另 见 
关于 控制 文本 外 观 的 更 多 内 容 ， 参 见 9.2 节 。 


14.7 在 Windows 的 点 阵 或 屏幕 输出 中 使 用 字体 


问题 
使 用 Windows 时 ， 如 何在 点 阵 或 屏幕 输出 中 使 用 除了 R 中 提供 的 基本 字体 以 外 的 
字体 ? 
方法 
extrafont 包 可 以 用 于 创建 点 阵 或 屏幕 输出 。 过 程 与 使 用 extrafont 处 理 PDF 文件 
类 似 (参见 14.6 节 )。 除 了 不 需要 Ghostscript 以 外 ， 一 次 性 的 安装 过 程 几乎 是 相 
同 的 : 


install.packages ("extrafont") 
library (extrafont) 





和 查找 并 保存 系 
font_import () 


# 列 出 字体 
fonts () 
在 一 次 性 的 安装 过 程 结束 之 后 ， 需 要 你 在 每 个 新 的 R 会 话 中 执行 的 是 : 


library (extrafont) 
# 注册 Windows 中 的 字体 
loadfonts ("win") 
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最 后 ， 你 可 以 创建 输出 文件 或 在 屏幕 上 显示 图 形 ， 如 图 14-5 所 示 : 


library (ggplot2) 
ggplot (mtcars, aes(x=wt, y=mpg)) + geom point() + 

ggtitle("Title text goes heren) + 

theme (text = element text (size = 16, family="Georgia", face="italic")) 


ggsave ("myplot .png", width=4, height=4, dpi=300) 


清寺 text 





oes here 





站 


wt 














图 14-5 “ 含 斜 体 Georgia 字体 的 PNG 输出 
讨论 
点 阵 图 形 与 PDF 图 形 在 字体 的 处 理 方式 上 是 完全 不 同 的 。 


在 Windows 上 ， 对 于 点 阵 输 出 ， 必 须 手 工 在 R 中 注册 每 一 个 字体 (extrafont 让 这 件 
事变 得 容易 了 许多 )。 而 在 Mac OS X 和 Linux 上 ， 对 于 点 阵 输出 ， 字 体 应 该 是 直接 可 
用 的 ， 并 不 需要 手工 注册 它们 。 
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绘制 统计 图 形 时 ， 有 半数 的 时 间 会 花 在 调用 绘图 命令 之 前 。 在 你 把 数据 传送 给 画图 函 
数 之 前 ， 数 据 首先 需要 被 读 入 R 中 并 转化 为 正确 的 结构 。R 中 提供 的 数据 集 可 以 直接 
使 用 ， 但 到 了 真实 世界 中 ， 就 不 是 这 种 情况 了 : 在 将 数据 转化 为 图 形 之 前 ， 你 需要 对 
数据 进行 清理 然后 重新 组 织 数据 的 结构 。 

R 中 的 数据 集 常 以 数据 框 的 形式 存在 。 它 们 都 是 典型 的 二 维 数据 结构 ， 每 行 代表 一 个 
具体 对 象 (case)， 每 列 代表 一 个 描述 对 象 的 变量 。 数 据 框 本 质 上 是 由 向 量 和 因子 组 成 
的 列表 ， 其 中 每 个 向 量 或 者 因子 代表 了 数据 的 一 列 。 

下 面 是 heightweight 数据 集 : 


library (gcookbook) # 为 了 使 用 数据 集 
heightweight 





sex ageYear ageMonth heightIn weightIb 


上 11.92 143 56.3 85.0 
于 12.92 155 62.3 105.0 
m 13.92 167 62.0 107.5 
m 12.58 151 59.3 87.0 


它 一 共 五 列 ， 每 行 代表 了 一 个 具体 对 象 (case): 某 个 人 的 一 些 信息 。 我 们 可 以 通过 
str() 函数 清楚 地 了 解 它 的 结构 。 


str (heightweight) 


"data.frame': 236 obs. of 5 variables: 

$ sex : Factor w/ 2 levels "f","m": 1111111111... 
$ ageYear ; num 11.9 12.9 12.8 13.4 15.9 ... 

$ ageMonth: int 143 155 153 161 191 171 185 142 160 140 ... 

$ heightIn: num 56.3 62.3 63.3 59 62.5 62.5 59 56.5 62 53.8 ... 
$ weightLb: num 85 105 108 92 112 ... 
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数据 的 第 一 列 sex， 是 一 个 两 水 平 ("f" 和 "m") 的 因子 。 其 余 四 列 都 是 数值 型 向 量 (其 
中 的 ageMonth 是 整 型 向 量 ， 但 在 此 处 ， 它 与 其 他 数值 向 量 并 无 明显 区 别 )。 


因子 和 字符 型 向 量 在 ggplot2 中 的 处 理 方式 相 类 似 一 一 主要 区 别 在 于 ， 展 示 字符 型 向 
量 代 表 的 项 目 时 ， 它 们 以 字母 表 的 顺序 排列 ， 而 因子 型 的 项 目 是 按 因 子 水 平 的 顺序 排 
列 ， 这 个 顺序 是 可 以 由 用 户 控制 的 。 


15.1 创建 数据 框 


问题 
如 何 将 若干 向 量 组 织 成 数据 框 ? 
方法 


你 可 以 把 向 量 放 在 data.frame() 里 面 : 
# 从 两 个 简单 的 向 量 开始 
g <- ce("A", "B", "Cn 
% <- 1: 

















) 





dat <- data.frame (g, x) 


数据 框 本 质 上 是 由 一 堆 向 量 和 因子 构成 的 列表 ， 其 中 每 个 向 量 或 者 因子 代表 了 一 列 。 


如 果 你 的 向 量 在 一 个 列表 中 ， 你 可 以 用 as.data.frame () 函数 直接 将 它们 转化 成 数据 框 : 
lst <- list (group = g，value = x) # 由 向 量 组 成 的 列表 


dat <- as.data.frame (lst) 


15.2 ”从 数据 框 中 提取 信息 


问题 
如 何 从 一 个 对 象 或 者 数据 框 中 提取 主要 信息 ? 
方法 


使 用 str() 函数 : 


str (ToothGrowth) 
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'data.frame': 60 obs. of 3 variables: 

$ len : num 4.2 11.5 7.3 5.8 6.4 10 11.2 11.2 5.2 7 

$ supp: Factor w/ 2 levels "0J","VC": 2222222222... 
$ dose: num 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 


以 上 代码 告诉 你 ToothGrowth 由 len、supp 和 dose 三 列 组 成 ，len 和 dose 包含 的 是 
数值 变量 ， 而 supp 是 一 个 有 两 个 水 平 的 因子 。 

讨论 

str () 函数 在 提取 数据 框 更 多 信息 的 时 候 很 实用 。 一 个 常见 的 问题 是 ， 有 时 候 一 个 数 
据 框 包含 的 向 量 是 字符 型 向 量 而 不 是 因子 ， 反 之 亦 然 。 这 个 问题 会 在 分 析 和 画图 的 时 
候 给 我 们 造成 一 些 困 扰 。 

当 你 想 用 常规 的 方式 输出 一 个 数据 框 时 ， 只 需要 在 提示 符 (>) 后 面 输入 数据 框 的 名 
称 ， 然 后 敲 下 回 车 键 。 你 会 发 现 字符 型 向 量 和 因子 的 输出 效果 一 样 ， 你 无 法 分 辨 出 哪 
个 是 字符 型 向 量 ， 哪 个 是 因子 。 只 有 当 你 运行 str () 函数 或 者 单独 输出 一 列 的 时 候 ， 
才能 看 出 它们 的 区 别 : 


tg <- ToothGrowth 
tg$supp <- as.character (tg$supp) 








str (tg) 


"data.frame': 60 obs. of 3 variables: 

$ len : num 4.2 11.5 7.3 5.8 6.4 10 11.2 11.2 5.27... 
$ supp: chr "VC" "VC" "VC"” "VC" ... 

$ dose: num 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 .., 
# 直接 输出 列 


不 原始 数据 框 ( 因子 ) 
ToothGrowth$supp 


# 新 数据 框 ( 字符 囊 ) 

tg$supp 

DF SE 二 Do 0 pO Oe 9 CE SE Ne ME on 
[16] "VC" "VC® "VC "VC® "VC"” "VC "VC" "VC "VC "VC "VC "VC® "VC VC VC 
[31] "OJ" "OJ" "OJ" "OJ" "OJ" "OJ" "OJ" "OJ" "OJ" "OJ" "OJ" "OJ" "OJ" "OJ" "OJ" 
[46] "OJ" "OJ" "OJ" "OJ" "OJ" "OJ" "OJ" "OJ" "0J" "QJ" "OJ" "OJ" "OJ" "0J" "OJ" 


15.3 向 数据 框 添加 列 


问题 
如 何在 数据 框 中 添加 列 ? 
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方法 
只 需 把 值 赋 到 新 的 列 即 可 。 


如 果 你 把 单个 值 赋 到 一 个 新 的 列 ， 那 么 整个 列 都 会 被 赋予 这 个 值 。 下 面 的 例子 是 增加 
一 个 新 的 列 ， 值 全 部 是 Na : 


dataSnewcol <- NA 


你 也 可 以 把 一 个 向 量 赋 到 新 的 一 列 : 


data$newcol <- vec 


如 果 该 向 量 的 长 度 比 数据 框 的 行 数 小 ， 那 么 R 会 重复 这 个 向 量 ， 直 到 所 有 的 行 被 填充 。 


讨论 
数据 框 的 每 一 列 都 是 一 个 向 量 或 者 因子 。R 在 处 理 数 据 框 的 时 候 会 和 处 理 单独 的 向 量 
时 略 有 不 同 ， 因 为 在 数据 框 中 所 有 列 的 长 度 都 是 一 样 的 。 


15.4 ”从 数据 框 中 删除 一 列 
问题 

如 何 从 数据 框 中 删除 一 列 ? 

方法 

把 该 列 的 值 赋 成 NULL 即 可 。 


data$badcol <- NULL 
讨论 
你 也 可 以 使 用 subset () 函数 并 将 一 个 -〈 减 号 ) 置 于 待 删 除 的 列 之 前 ; 


# 返回 不 包含 badcol 列 的 数据 
data <- subset (data, select = -badcol) 


# 排除 badcol 列 和 othercol 列 
data“- subset (data, select = cf{-badcol，-~othercol) ) 


另 见 
更 多 关于 获取 数据 框 子 集 的 信息 ， 参 见 15.7 节 。 


15.5” 重 命名 数据 框 的 列 名 


问题 
如 何 重 命名 数据 框 的 列 名 ? 
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方法 
使 用 names (dat) <- 函数 即 可 : 


names (dat) <- cl("n 
讨论 
如 果 你 想 通 过 列 名 重 命 名 某 一 列 : 


library(gcookbook) # 为 了 区 
names (anthoming) 所 输出 列 名 





"angle" "expt" "ctrl" 


names (anthoming) [names (anthoming) = 
names (anthoming) [names (anthoming) -~ 
names (anthoming) 





"angle" "Experimental" "Controlw 
你 也 可 以 通过 名 学 的 数值 位 置 大 命名 


names (anthoming) [1] <- "An 
names (anthoming) 


"Angle"” "Experimental" "Control" 


15.6 ” 重 排序 数据 框 的 列 


问题 
如 何 改变 数据 框 中 列 的 顺序 ? 


方法 


通过 列 的 数值 位 置 重 排序 : 

dat <- dat[c(1,3,2)] 
通过 列 的 名 称 重 排序 : 

dat <- datlc("coll", "col3", "col2")] 


讨论 
前 面 的 例子 用 了 一 个 列表 形式 的 索引 。 数 据 框 本 质 上 是 若干 向 量 组 成 的 列表 ， 如 
果 改 变 其 索引 ， 我 们 会 得 到 另 一 个 数据 框 。 我 们 用 矩阵 形式 的 索引 也 能 得 到 同样 
的 效果 : 


library (gcookbook) # 为 了 使 用 数据 集 
anthoming 


angle expt ctrl 
-20 1 0 
-10 7 3 
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0 2 3 


10 0 3 
20 0 工 
anthoming[c(1,3,2)] 站 列表 风格 的 索引 


angle ctrl expt 


-20 0 1 
-10 每 7 
| 章 
10 3 0 
20 1 0 
音 到 号 之 前 的 空白 表示 输出 所 有 行 
anthoming[，c(1,35,2)] # 埠 障 风格 的 索引 
angle ctrl expt 
-20 0 和 
-10 3 7 
0 3 2 
10 3 0 
20 1 0 


这 种 情况 下 ， 两 种 方法 都 会 得 到 数据 框 。 然 而 ， 当 你 检索 单独 一 列 的 时 候 ， 列 表 风 格 的 
索引 会 得 到 数据 框 ， 而 矩阵 风格 的 索引 得 到 的 是 向 量 ， 除 非 你 加 上 参数 drop=FALSE : 


anthoming[3] 和 列表 风格 的 索引 
ctrl 
0 
3 
3 
3 
4 
anthoming[，3] # 矩 阵风 格 的 索引 
03331 
anthoming[，3，drop=FALSE] # 炬 阵风 格 的 索引 ， 并 辽 加 参数 drop=FALSE 


ctrl 


PP www 


15.7 ”从 数据 框 提取 子 集 


问题 
如 何 得 到 数据 框 的 子 集 ? 
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方法 
使 用 subset () 函数 。 它 可 以 筛选 出 符合 一 系列 条 件 的 行 和 选 出 特定 的 列 。 


我 们 用 climate 数据 集 作 为 例子 : 


library(gcookbook) 才 为 了 使 用 数据 集 
climate 


Source Year Anomalyly hnomaly5y Anomalyl0y Uncl0y 


Berkeley 1800 NA RNR -0.435 0.505 
Berkeley 1801 NA NA -0.453 0.493 
Berkeley 1802 NA NA -0.460 0.486 
CRUTEM3 2009 0.7343 NA NA NA 
CRUTEM3 2010 0.8023 NA NA NA 
CRUTEM3 2011 0.6193 NA Mm RNR 
下 面 的 代码 只 会 输出 Source 是 "Berkeley" 的 行 ， 并 且 选 取 名字 为 Year 和 Anomalyl0y 


的 列 : 


subset (climate, Source == "Berkeley", select = c(Year, Anomalyl0y)) 


Year Anomalyl0y 


1800 -0.435 

1801 -0.453 

1802 -0.460 

2002 0.856 

2003 0.869 

2004 0.884 
讨论 


我 们 还 可 以 通过 使 用 | (OR) 和 5 (AND) 操作 符 同 时 施加 多 种 筛选 条 件 。 例 如 ， 下 
面 的 代码 会 筛选 出 Source 是 "Berkeley" 并 且 Year 在 1900 和 2000 之 间 的 数据 : 


subset (climate, Source == "Berkeley" & Year >= 5 Year <= 
select = clYear, Anomaly10y)) 





Year Anomalyl0y 


1900 -0.171 
1901 -0.162 
1902 -0.177 
1998 0.680 
1999 0.734 
2000 0.748 


你 也 可 以 在 方 括号 里 面 加 入 索引 来 得 到 子 数据 框 ， 虽 然 这 种 方法 不 是 很 优雅 。 下 面 的 
代码 和 上 面 用 到 的 代码 有 同样 的 效果 。 方 括号 里 面 、 逗 号 前 面 的 部 分 提取 行 ， 豆 号 后 
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面 的 部 分 提取 列 : 


pest lothrabigpons oe 
cl"Year", "A 


如 果 用 这 种 方式 得 到 的 结果 只 有 一 列 ， 那 么 它 会 返回 一 个 向 量 而 不 是 一 个 数据 框 ， 除 
非 你 使 用 参数 drop=FALSE : 


y" & climate$Year >= 5 Climate$Year <= 2 , 











clinate[lclinate$Source y" & climate$Year >= & climate$Year <= 下 
cl("Year", 了 drop=FALSE] 
最 后 ， 我 们 还 可 以 通过 行 和 列 的 数值 位 置 提 取 子 数据 框 。 下 面 代码 得 到 的 是 前 100 行 
的 第 二 和 第 五 列 : 
climate[l:i00, c(2, 5)] 


我 建议 尽 可 能 地 使 用 名 称 索 引 ， 避 免 使 用 数字 索引 。 前 者 使 代码 更 加 易 懂 ， 尤 其 是 你 
和 其 他 人 合作 的 时 候 或 者 在 你 完成 代码 几 个 月 甚至 几 年 以 后 回 过 头 来 再 看 的 时 候 ， 也 
使 得 代码 不 容易 因为 数据 框 行 和 列 的 增 减 而 得 不 到 原先 的 效果 。 


15.8 改变 因子 水 平 的 顺序 


问题 
如 何 改变 因子 水 平 的 顺序 ? 


方法 
因子 的 水 平 可 以 由 函数 factor () 具体 设 定 。 在 下 面 这 个 例子 中 ， 我 们 创造 了 一 个 因 
子 ， 但 是 它 的 因子 水 平 的 顺序 是 乱 的 : 

志 默认 的 因子 水 平 的 顺序 是 按 字 母 排 的 


sizes <- factor(c("snall", "large", "large", "small", "medium")) 
sizes 


small large large small medium 
Levels: large medium small 


## 改变 因子 水 平 的 硕 序 
sizes <- factor(sizes，levels = c("small", "medium", "large" 


sizes 


small large large small medium 
Levels: small medium large 


因子 的 顺序 也 可 以 在 第 一 次 创建 因子 时 通过 levels 参数 来 指定 。 

讨论 

R 中 有 两 种 因子 : 顺序 因子 (orderer factor) 和 常规 因子 (regular factor)。 在 两 种 类 型 中 ， 因 
子 水 平 都 是 按 某 种 顺序 排列 的 ， 区 别 在 于 ， 对 于 顺序 因子 ， 因 子 水 平 的 顺序 是 有 意义 的 ， 
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而 对 于 常规 因子 ， 因 子 水 平 的 顺序 却 没有 什么 意义 一 一 它 仅仅 是 反映 了 数据 是 如 何 存储 的 。 
对 于 用 于 画图 的 数据 ， 两 者 的 区 别 一 般 来 说 不 太 重要 ， 因 为 处 理 它们 的 方式 是 一 样 的 。 
因子 水 平 的 顺序 会 影响 图 形 输 出 。 当 一 个 因子 变量 被 映射 到 ggplot2 中 的 图 形 属性 中 ， 
图 形 属性 会 采用 因子 水 平 的 顺序 。 如 果 因 子 被 映射 到 x 轴 ， x 轴 的 标签 会 按 因子 水 平 
的 顺序 排列 ， 如 果 因 子 被 映射 到 颜色 上 ， 那 么 图 例会 按 因子 水 平 的 顺序 排序 。 
如 果 要 颠倒 因子 水 平 的 顺序 ， 可 以 使 用 函数 rev(levels()) : 


factor (sizes, levels = revllevels(sizes))) 

















small large large small medium 
Levels: small medium large 


另 见 
如 果 要 依据 其 他 变量 的 值 对 因子 水 平 排序 ， 参 见 15.9 节 。 
改变 因子 的 顺序 对 控制 坐标 标签 和 图 例 的 顺序 很 用。 参见 8.3 节 和 10.3 节 。 


15.9 根据 数据 的 值 改 变 因子 水 平 的 顺序 


问题 

如 何 根据 数据 的 值 改变 因子 水 平 的 顺序 ? 

方法 

使 用 函数 reorder () ， 该 函数 有 三 个 参数 ， 因子 ， 排 序 依据 的 数据 和 汇总 数据 的 函数 。 
## 复制 一 份 数 据 ， 因 为 我 们 要 修改 它 


iss <- InsectSprays 
iss$spray 

[1] AAAAAAAAAAAABBB 
[39] DDDDDDDDDDEEEEE 
Levels: ABCDEF 


iss$spray <- reorder (iss$spray, iss$count, FUN=mean) 


iss$spray 
[I]AAAAAAAAAAAABBBBBBBBBBBBCCCCCCCCCCCCDD 
[39] DDDDDDDDDDEEEEEEEEEEEEFPFPFFFPFPFFFFFF 


attr(,"scores") 

A B C D E F 
14.500000 15.333333 2.083333 4.916667 3.500000 16.666667 
Levels: CEDABEF 


原始 因子 水 平 的 顺序 是 ABCDEF， 重 排 后 的 顺序 是 CEDABF。 新 的 顺序 是 由 iss$spray 
中 每 组 iss$count 的 平均 值 决定 的 。 
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讨论 
仅 从 简单 的 输出 我 们 无 法 看 出 reorder () 的 作用 。 图 15-1 给 我 们 展示 了 经 过 reorder () 
函数 排序 后 的 三 个 图 形 。 在 这 些 图 形 中 ， 每 一 项 出 现 的 顺序 是 由 它们 的 某 些 值 决定 的 。 


图 15-1 中 间 的 箱 线 图 是 按照 每 组 的 平均 值 排序 的 。 箱 线 图 中 箱子 里 的 水 平 线 表 示 了 这 一 组 
的 中 位 数 。 注 意 到 这 些 中 位 数 并 不 是 从 左 到 右 严格 递增 的 。 这 是 因为 根据 均值 和 根据 中 位 
数 排序 得 到 的 顺序 是 不 一 样 的 。 为 了 使 中 位 数 线 从 左 到 右 递增 ， 就 像 15-1 右边 的 图 一 样 
我 们 必须 按 每 组 的 中 位 数 排序 ， 于 是 在 reorder () 中 ， 我 们 应 该 使 用 函数 median () 。 








Ove ee om 
A 














图 15-1 左 图 : 原始 数据 中 图 : 以 每 组 平均 值 排序 后 的 数据 右 图 : 以 每 组 中 位 数 排序 后 的 数据 
另 见 
改变 因子 的 顺序 对 控制 坐标 标签 的 顺序 和 图 例 的 顺序 很 有 有 用， 参见 8.3 节 和 10.3 节 。 


15.10 ”改变 因子 水 平 的 名 称 


问题 
如 何 改变 因子 水 平 的 名 称 ? 
方法 
使 用 plyr 包 中 的 revalue() 函数 或 mapvalues () 函数 。 
sizes <- factor(c( "small", "large", "large", "small", "nedium")) 


sizes 


small large large small medium 
Levels: large medium small 


levels (sizes) 
"large" "medium" "small" 
## 通过 函数 revalue () ， 传 递 一 组 号 射 关系 


sizesl <- revalue (sizes, cl{small="S", medium="M", large="L")) 
sizesl 
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SLLSM 
Levels: LMS 


地 也 可 以 使 用 引号 一 于 格 等 特 珠 字符 ， 


revalue (sizes，c("sma "med 
# mapvalues () 函数 使 用 两 组 而 不 是 一 组 号 射 关系 向 量 
mapvalues (sizes, c("s: "med: "large”), cl("S", "M", "L")) 
讨论 
revalue () 函数 和 mapvalues () 函数 很 方便 ， 但 是 在 R 中 有 一 个 更 传统 (也 更 笨重 ) 
的 方法 ， 使 用 levels ()<- 函数 : 


sizes <- factor(c( "s 


## 通过 水 平原 名 称 找到 某 个 水 平 然后 重 命名 
levels (sizes) [levels (sizes)= 
levels (sizes) [levels (sizes) =="nm 
levels (sizes) [levels (sizes)=="small"] <- "5S" 
Sizes 














"medium")) 





", "large", 





SLLSM 
Levels: LMS 
如 果 你 要 改变 所 有 水 平 的 名 称 ， 这 里 有 一 个 更 简单 的 方法 。 你 可 以 给 levels () 传递 
一 个 list 类 型 的 参数 : 


sizes <- factor(c(" 
levels(sizes) <- list 
sizes 






SLLSM 
Levels: LMS 


在 这 个 方法 中 ， 所 有 的 因子 水 平 必须 在 一 个 list 里 面 指定 ， 如 果 这 个 1ist 里 面 有 任 
何 的 缺失 ， 缺 失 的 值 最 终 会 以 NA 代替 。 


通过 因子 水 平 的 位 置 也 可 以 重 命名 ， 但 是 这 种 方法 比较 笨 : 
4 点 认 情况 下 ， 因 子 水 平 是 接 字 母 斋 序 排列 的 


sizes <- factorl(c("small large", "large", "small”, "medium")) 








small large large small medium 
Levels: large medium small 


levels(sizes) [1] <- "L" 


sizes 


small 工 工 small medium 
Levels: L medium small 


# 一 次 重 命名 所 有 的 水 平 


levels (sizes) <- c("L", "M", "Ss") 
sizes 
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[1] SLLSM 
Levels: LMS 


通过 因子 水 平 的 原始 名 称 去 改变 因子 水 平 的 名 称 比 通过 位 置 改变 更 安全 ， 因 为 你 犯错 
误 的 机 会 更 少 此 处 错误 可 能 很 难 被 发 现 )。 而 且 ， 如 果 原 始 数据 改变 ， 因 子 水 平 的 
数值 位 置 也 可 能 会 改变 ， 这 可 能 会 对 你 的 分 析 产 生 严 重 但 是 不 易 察觉 的 影响 。 

另 见 

如 果 需 要 改变 字符 向 量 的 名 称 ， 参 见 15.12 节 


15.11 去 掉 因子 中 不 再 使 用 的 水 平 


问题 
如 何 从 一 个 因子 中 去 除 不 再 使 用 的 水 平 ? 
方法 
有 的 时 候 ， 在 你 对 一 堆 数据 进行 操作 之 后 ， 会 有 一 些 因 子 包含 了 不 再 使 用 的 因子 水 
平 。 下 面 就 有 一 个 例子 
sizes <- factor(c(" 1l", "large", ™ ge", "small", “medium")) 


sizes <- sizes[l1:3] 
sizes 














small large large 
Levels: large medium small 


为 了 删除 这 些 不 需要 的 水 平 ， 可 以 使 用 droplevels () 函数 : 


sizes <- droplevels (sizes) 
sizes 


small large large 
Levels: large small 


讨论 

droplevels() 函数 保留 了 因子 水 平 的 顺序 。 另 外 ， 你 可 以 使 用 except 参数 保留 某 个 
特定 的 水 平 。 

15.12， 在 字符 向 量 中 改变 元 素 的 名 称 

问题 

如 何在 字符 向 量 中 改变 元 素 的 名 称 ? 
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方法 
用 plyr 包 中 的 revalue() 汪 PR i 


sizes <- cl"small", " 
sizes 





"small" "large" "large" "small" "medium" 





# 通过 函数 revalue () 传递 一 组 
sizesl <- revalue (Sizes，cl(sms 
sizesl 





", medium="M", large="L")) 


nS™ nLn mLm nS™ mwMw 








revalue (sizes, cl(" 


# mapvalues () 函数 使 用 两 
mapvalues (sizes, c(" 


讨论 
在 R 中 ， 更 传统 的 方法 是 通过 方 括号 索引 去 选择 元 素 然 后 对 它们 重合 名: 


sizes <- c("small", "large", "large", a dium") 
sizes 


"small" "large" "large" "small" "medium" 
Sizes[sizes== 


Sizes[sizes: 
sizes[sizes== 






sizes 
We i i 

另 见 

如 果 你 要 改变 因子 水 平 的 名 称 ， 参 见 15.10 节 的 方法 。 


15.13 ”把 一 个 分 类 变量 转化 成 另 一 个 分 类 变量 


问题 

如 何 把 一 个 分 类 变量 转化 成 另 一 个 分 类 变量 ? 

方法 

如 下 面 的 例子 ， 我 们 使 用 PlantGrowth 数据 集 的 一 个 子 数据 集 


# 在 PlantGrowth 的 一 个 子 数据 集 上 操作 
pg <- PlantGrowth[c(1,2,11,21,22), ] 
pg 
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weight group 


4.17 
5.58 
4.81 
6.31 
5.12 


ctrl 
ctrl 
trtl 
trt2 
trt2 


在 这 个 例子 中 ， 我 会 把 一 个 分 类 变量 group 编码 到 另 一 个 分 类 变量 treatment 中 。 如 


果 原 先 的 值 是 "ctrl"， 


的 值 就 是 "Yes"。 


这 个 可 以 用 match () 函数 完成 : 


pg <- PlantGrowth 


oldvals <- cl("ctrl" 
newvals <- factor(c("” 


新 的 值 就 是 "No" ; 





)) 


pgStreatment <- newvals[ match(pg$group, oldvals) ] 


也 可 以 使 用 向 量 索引 的 方法 大 出名 年检 


pg$treatment [pg$group = 
pg$treatment [pg$group ~ 
pg$treatment [pg$group = 


提 转化 为 因子 
pg$treatment <- factor {pg$treatment) 


pg 


weight group treatment 


4.17 
5.58 
4.81 
6.31 
5.12 


这 里 ， 我 们 把 两 个 因子 水 平 组 合 起 来 然后 把 结果 存 到 - 


ctrl 
ctrl 
trtl 
trt2 
trt2 


no 
no 
yes 
yes 
yes 





想 对 因子 水 平 重 命名 ， 参 见 15.10 节 的 方法 。 


讨论 


通过 使 用 & 和 | 操作 符 ， 编 码 准则 同样 可 以 基于 多 个 列 的 取 值 : 
. 和 


pgSnewcol [pg$group 
Fe 


pg$newcol [pg$group 
pg$newcol [pg$group 
pg$newcol [pg$group 





2"] <- 


” & pgSweight < 


& pgSweight >= 
] <- 





pg$newcol <- factor (pg$newcol) 


pg 





如 果 原 先 的 值 是 "trt1" 或 者 "trt2"， 
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-个 新 的 列 里 面 。 如 果 你 仅仅 是 
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weight group weightcat treatment newcol 


4.17 ctrl small no no_small 
5.58 ctrl large no no_large 
4.81 trtl small yes yes 
4.17 trtl small yes yes 
6.31 trt2 large yes yes 
5.12 trt2 large yes yes 


我 们 也 可 以 使 用 interaction () 函数 把 数据 框 中 的 两 列 组 合成 一 列 。 该 函数 会 在 两 个 
值 的 中 间 加 上 一 个 "." 符号 。 下 面 的 例子 把 weightcat 和 treatment 组 合 起 来 形成 新 
的 列 weighttrt : 


pg$weighttrt <- interaction(pg$weightcat, pg$treatment) 





pg 

weight group weightcat treatment newcol weighttrt 
4.17 ctrl small no no_small small.no 
5.58 ctrl large no no_large large.no 
4.81 trtl small yes yes small.yes 
4.17 trtl small yes yes small. 
6.31 trt2 large yes yes large. 
5.12 trt2 large yes yes large. 


另 见 
对 于 更 多 关于 改变 因子 水 平 名 称 的 方法 ， 参 见 15.10 节 。 
对 于 把 连续 变量 转变 为 分 类 变量 ， 参 见 15.14 节 。 


15.14 连续 变量 转变 为 分 类 变量 


问题 
如 何 把 连续 变量 转变 为 分 类 变量 ? 


方法 
下 面 的 例子 ， 我 们 使 用 PlantGrowth 数据 集 的 一 个 子 数 据 集 。 


# 在 PlantGrowth 的 一 个 子 数据 集 上 操作 
pg <- PlantGrowth[c(1,2,1i,21,22), ] 
pg 





weight group 
4.17 ctrl 
5.58 ctrl 
4.81 trtl 
6.31 trt2 
5.12 trt2 


在 这 个 例子 中 ， 我 们 使 用 cut () 函数 把 一 个 连续 变量 weight 转化 为 分 类 变量 wtclass : 
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pgSwtclass <- cut (pg$weight, breaks = c(0, 5, 6, Inf)) 
pg 


weight group wtclass 
4.17 ctrl (0,5] 
5.58 ctrl (5,6] 
4.81 trtl (0,5] 
4.17 trtl (0,5] 
6.31 trt2 (6,Inf] 
5.12 trt2 (5,6] 


讨论 
我 们 为 三 个 类 设 定 了 四 个 边界 值 ， 边 界 值 可 以 包括 正 无 穷 (Inf〉 和 人 负 无 穷 (-Inf)。 如 果 


一 个 值 落 在 我 们 规定 的 区 间 之 外 ， 它 的 类 别 将 被 定 为 NA 《缺失 值 )。cut () 函数 的 输出 结 
果 是 一 个 因子 ， 你 可 以 从 下 面 这 个 例子 中 看 出 ;因子 水 平 的 名 称 是 以 生成 的 区 间 命 名 的 。 


为 了 改变 因子 水 平 的 名 称 ， 我 们 可 以 使 用 cut () 中 的 labels 参数 ， 


pgSwtclass <- cut (pg$weight, breaks = c(0，5，56，Inf)， 
labels = c("small", "medium", "large")) 

pg 
weight group wtclass 

4.17 ctrl small 

5.58 ctrl medium 

4.81 trtl small 

4.17 trtl small 

6.31 trt2 large 

5.12 trt2 medium 


cut () 生成 的 区 间 是 左 开 右 闭 的 ， 换 名 话说， 它们 不 会 包含 最 小 值 ， 但 是 它们 包含 了 最 大 
值 。 对 于 值 最 小 的 一 类 ， 你 可 以 通过 设 定 参数 include. lowest=TRUE 使 得 它 同时 包含 最 小 
值 和 最 大 值 。 在 这 个 例子 中 ， 这 么 做 会 使 得 0 被 包含 到 small 类 中 ;否则 ，0 会 被 赋 为 NA。 


如 果 你 想 让 生成 的 区 间 是 左 闭 右 开 的 ， 设 定 参数 right=FALSE : 


cut (pg$weight, breaks = c(0, 5, 6, Inf), right = FALSE) 


另 见 
对 于 如 何 把 一 个 分 类 变量 转化 成 另 一 个 分 类 变量 ， 参 见 15.13 节 。 


15.15 ”变量 转换 


问题 
如 何 转换 数据 框 中 的 变量 ? 
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方法 
可 以 使 用 $ 操作 符 来 引用 新 列 并 对 其 赋予 新 值 。 在 本 例 中 ， 我 们 将 使 用 heightweight 
数据 集 的 复制 版 本 : 

library (gcookbook) 着 为 了 使 用 数据 集 

# 复制 数据 集 


hw <- heightweight 
hw 


sex ageYear ageMonth heightIn weightIb 


沐 11.92 143 56.3 85.0 
12.92 155 62.3 105.0 
m 13.92 167 62.0 107.5 


m 12.58 151 59.3 87.0 
这 将 会 把 heightIn 的 单位 从 英尺 转换 到 厘米 ， 然 后 存储 到 新 的 一 列 heightcm 中 ， 


hwSheightCm <- hwSheightIn * 
hw 


sex ageYear ageMonth heightIn weightLb heightCm 


三 11.92 143 56.3 85.0 143.002 

f 12.92 155 62.3 105.0 158.242 

m 13.92 167 62.0 107.5 157.480 

m 12.58 151 59.3 87.0 150.622 
讨论 


为 了 使 代码 更 容易 阅读 ， 你 可 以 使 用 transform() 或 plyr 包 中 的 mutate() 函数 。 你 
仅 需 指定 数据 框 一 次 ， 将 其 作为 函数 的 第 一 个 参数 ， 它 们 提供 了 非常 清晰 的 语法 ， 尤 
其 适合 转换 多 个 变量 : 
hw <- transform(hw, heightCm = heightIn * 
library (plyr) 
hw <- mutate (hw, heightCm = heightIn * 
hw 


, weightkg = weightIb / 4) 


, weightkg = weightLb / ) 


sex ageYear ageMonth heightIn weightLb heightCm weightKg 





f 11.92 143 56.3 85.0 143.002 38.56624 
£f 12.92 155 62.3 105.0 158.242 47.64065 
m 13.92 167 62.0 107.5 157.480 48.77495 
m 12.58 151 59.3 87.0 150.622 39.47368 
也 可 以 根据 多 个 变量 计算 产生 一 个 新 的 变量 : 
# 这 些 功能 都 一 样 : 
hw <- transform(hw, bmi = weightkg / (heightcm / :00)^2) 
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hw <- mutate(hw, bmi = weightKg / (heightcm / 100)*2) 
hw$bmi <- hwSweightKg / (hw$heightcm/100)” 


hw 

sex ageYear ageMonth heightIn weightLb heightCm weightKg bmi 
£f 11.92 143 56.3 85.0 143.002 38.56624 18.85919 
£f 12.92 155 62.3 105.0 158.242 47.64065 19.02542 
m 13.92 167 62.0 107.5 157.480 48.77495 19.66736 
m 12.58 151 59.3 87.0 150.622 39.47368 17.39926 


transform() 和 mutate() 函数 的 最 大 区 别 是 transform() 会 同时 计算 所 有 的 新 列 ， 
而 mutate () 将 依次 计算 新 列 ， 这 样 在 计算 新 列 时 就 可 以 依赖 之 前 的 新 列 。 由 于 bmi 
是 由 heightcm 和 weightKg 计算 来 的 ， 因 此 用 transform() 不 能 同时 计算 出 这 些 变量 ; 


首先 得 计算 heightcm 和 weightKg， 然 后 再 计算 bmi， 如 上 面 代码 所 示 。 


使 用 mutate() 函数 时 ， 我 们 可 以 一 次 完成 这 些 计算 。 下 面 的 代码 和 上 面 分 开 计算 的 


代码 效果 一 样 : 
hw <- heightweight 
hw <- mutate (hw, 
heightcm = heightIn * ， 
weightKg = weightLb / ， 
bmi = weightkg / (heightCm / 100)^2) 


另 见 
参阅 15.16 节 来 学 习 如 何 对 分 组 数据 进行 转换 。 


15.16 ” 按 组 转换 数据 


问题 

如 何 根据 分 组 变量 来 转换 数据 框 中 的 数据 ? 

方法 

使 用 plyr 包 中 的 ddply() 函数 ， 在 参数 中 调用 transform() ， 并 指定 运算 : 


library (MASS) # 为 了 使 用 数据 集 
library (plyr) 
cb <- ddply(cabbages, "Cult", transform, Devit = HeadWt - mean (HeadWt)) 


Cult Date HeadWt VitC DevWt 
c39 dl6 2.5 51 -0.40666667 
c39 dl6 2.2 55 -0.70666667 
c52 d21 .5 66 -0.78000000 
c52 d21 1.6 72 -0.68000000 
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讨论 
我 们 首先 仔细 观察 cabbages 数据 集 。 它 有 两 个 分 组 变量 ( 即 因 子 )， 一 个 是 cult， 
有 两 个 水 平 c39 和 c52， 另 一 个 是 Date， 有 三 个 水 平 : d16、d20 和 d21。 它 还 有 两 个 
数值 变量 ，Headwt 和 Vitc : 

cabbages 

Cult Date HeadWt VitC 


c39 dl6 2.5 51 
c39 dl6 2.2 55 


sa dal 1.5 66 
c52 d21 1.6 72 
假设 我 们 想 知道 每 种 情况 下 HeadWwt 和 其 整体 均值 的 偏差 。 我 们 需要 做 的 就 是 计算 整 
体 均 值 ， 然 后 在 各 个 情况 下 减 去 它 : 
transform{(cabbages，DevAt = HeadWt - mean(HeadWt)) 
Cult Date HeadWt VitC Devit 


c39 dl6 2.5 51 -0.093333333 
c39 dl6 2.2 55 -0.393333333 


‘052 d21 1.5 66 -1.093333333 

c52 d21 1.6 72 -0.993333333 
很 多 时 候 ， 我 们 想 对 每 个 分 组 进行 单独 处 理 ， 这 里 的 组 由 一 个 或 多 个 分 组 变量 指定 。 
比如 说 ， 我 们 可 能 想 这 样 标准 化 数据 : 求 各 个 组 的 组 内 均值 ， 然 后 求 组 内 偏差 ， 其 中 
组 是 由 Cult 变量 指定 的 。 对 于 这 种 例子 ， 可 以 使 用 plyr 包 中 的 ddply() 函数 ， 在 参数 
中 调用 transform() : 

library (plyr) 


cb <- ddply (cabbages, "Cult", transform, Devit = HeadWt - mean (HeadWt)) 
cb 
Cult Date HeadWt VitC Devit 


c39 dl6 2.5 51 -0.40666667 
c39 dl6 2.2 55 -0.70666667 


52 d21 1.5 66 -0.78000000 

c52 d21 1.6 72 -0.68000000 
上 面 的 代码 首先 会 将 cabbages 数据 根据 cult 分 割 成 几 个 独立 的 数据 框 。cult 有 两 个 
水 平 ，c39 和 c52， 因 此 也 就 是 分 割 成 两 个 。 然 后 在 这 两 个 数据 框 上 使 用 transform() 
函数 ， 其 他 参数 保持 不 变 。 


注意 ，ddply() 函数 和 之 前 的 transform() 函数 具有 相同 的 参数 列表 。 唯 一 的 区 别 是 
ddply() 略微 调整 了 参数 的 位 置 ， 并 且 添 加 了 分 割 变量 (本 例 中 是 cult )。 
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标准 化 前 、 后 的 结果 参见 图 15-2。 
## 标准 化 前 
ggplot (cb，aes (x=CUIt，YyY-HeadWt)) + geom boxplot () 


着 标准 化 后 
ggplot (cb, aes(x=Cult, y=DevWt)) + geom boxplot() 

















图 15-2 左 图 : 标准 化 前 右 图 : 标准 化 后 


你 也 可 以 根据 多 个 变量 来 分 组 、 切 割 数据 框 ， 同 时 也 可 以 在 多 个 变量 上 进行 运算 。 本 
例 中 将 会 根据 cult 和 Date 切割 数据 ， 形 成 两 者 组 合 得 到 的 分 组 ， 然 后 计算 HeadWt 
和 Vitc 在 各 个 组 的 偏差 : 


ddply (cabbages, c("Cult", "Date"), transform, 
DevRt = Headit - mean(HeadWt), DevVitC = VitC - mean(VitC)) 


Cult Date HeadWt VitC DevWt DevVitC 
c39 dl6 2.5 51 -0.68 0.7 
c39 dl6 2.2 55 -0.98 4.7 


c52 d21 1.5 66 0.03 -5.8 
c52 d21 1.6 72 0.13 0.2 


另 见 
汇总 分 组 数据 可 以 参阅 15.17 节 。 


15.17 分 组 汇总 数据 


问题 
如 何 对 基于 单个 或 多 个 变量 分 组 的 数据 进行 汇总 ? 
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方法 

配合 summarise() 函数 使 用 plyr 包 中 的 ddply() 函数 ， 并 指定 要 进行 的 操作 即 可 : 
library (MASS) 间 为 了 使 用 数据 集 
library (plyr) 


ddply (cabbages, c("Cult", "Date"), summarise, Weight = mean(HeadWt), 
VitC = mean(VitC)) 


Cult Date Weight VitC 
c39 dl6 3.18 50.3 
c39 d20 2.80 49.4 
c39 d21 2.7: 
c52 dl6 2.2 
c52 d20 3.1 
c52 d21 1.4 
讨论 

我 们 先 来 仔细 观察 cabbages 数据 集 。 它 有 两 个 可 以 用 来 分 组 的 因子 : cult， 因 子 水 平 
为 c39 和 c52; Date， 因 子 水 平 为 dl6、d20 和 d21。 它 还 有 两 个 数值 变量 : HeadWt 和 
VitC: 


Du 


4 54. 
6 62. 
1 58. 
7 71. 


Cabbages 


Cult Date HeadWt VitC 
c39 dl6 2.5 51 
c39 dl6 2.2 55 
52 dal 1.5 66 
c52 d21 6 72 
计算 Headwt 的 整体 平均 值 是 很 简单 的 。 我 们 仅仅 需要 对 相应 的 列 套用 mean () 函数 即 
可 ， 但 接 下 来 我 们 会 发 现 ， 有 时 使 用 summarise () 会 更 合适 : 
library (plyr) 


summarise (cabbages, Weight = mean (HeadWt)) 


Weight 
2.593333 

得 到 的 结果 是 一 行 一 列 的 数据 框 ， 列 名 为 Weight。 

我 们 经 常会 根据 一 个 分 组 变量 探索 每 个 数据 子 集中 的 信息 。 比 如 ， 假 设 我 们 想 找 到 每 

组 cult 下 的 均值 。 为 此 ， 我 们 需要 在 ddply () 中 调用 summari se ()。 在 我 们 同时 使 

用 它们 时 ， 注 意 参 数 是 如 何 变 化 的 : 


library (plyr) 
ddply (cabbages, "Cult", summarise, Weight = mean (HeadWt)) 
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Cult Weight 

c39 2.906667 

c52 2.280000 
上 面 的 代码 首先 根据 cult 的 值 将 数据 框 cabbages 切割 成 了 几 个 小 数据 框 。 因 子 cult 有 
两 个 水 平 ，c39 和 c52， 因 此 也 就 有 两 个 数据 框 。 然 后 在 每 个 数据 框 上 套用 summarise () 
函数 ， 利 用 mean () 函数 计算 每 个 数据 框 中 HeadWt 的 均值 并 赋 给 新 的 列 Weight。 结 果 就 
得 到 了 两 个 一 行 的 数据 框 ， 然 后 ddply() 将 它们 合并 为 一 个 ， 正 如 结果 所 示 。 


根据 多 个 变量 〈 即 多 个 列 ) 切割 数据 框 然 后 汇总 也 是 很 简单 的 : 用 一 个 包含 多 个 变量 
名 的 向 量 即 可。 同样 ， 可 以 对 多 个 可 计算 的 列 进行 汇总 。 这 里 我 们 根据 cult 和 Date 
分 组 ， 得 到 Headwt 和 Vitc 在 各 组 的 均值 : 


ddply (cabbages, c("Cult", "Date"), summarise, Weight = mean (HeadWt)， 
VitC = mean (VitC)) 














Cult Date Weight VitC 
c39 d16 3.18 50.3 


c39 d20 2.80 49.4 
c39 d21 2.74 54.8 
c52 dl6 2.26 62.5 
c52 d20 3.11 58.9 


c52 d21 1.47 71.8 


除了 求 均 值 ， 我 们 还 可 以 做 很 多 其 他 的 事 。 比 方 说 ， 你 可 能 想 计算 各 个 组 的 标准 差 和 
频数 ， 使 用 sd() 来 计算 标准 差 ，length () 来 计算 频数 : 
ddply(cabbages，c("Cult"，"Date")，summarisey 
Weight = mean (HeadWt), 
sd = sd(HeadWt), 
n= length (HeadWt) ) 


Cult Date Weight sd n 
c39 dl6 ”3.18 0.9566144 10 


c39 d20 2.80 0.2788867 10 
c39 d21 2.74 0.9834181 10 
c52 d16 2.26 0.4452215 10 
c52 d20 3.11 0.7908505 10 
c52 d21 1.47 0.2110819 10 
还 有 一 些 有 用 的 函数 也 能 够 得 到 汇总 统计 量 ， 包 括 min () 、max() 、median() 等 。 
处 理 缺 失 值 


一 个 可 能 的 问题 是 : 如 果 原 数据 中 含有 缺失 值 (Na) ， 会 导致 输出 的 结果 中 也 有 。 我 
们 看 看 如 果 在 Headwt 引入 几 个 缺失 值 会 发 生 什么 ? 


cl <- cabbages 皇 复制 数据 
cl$HeadWt [c(i,30,45)] <- NA # 数据 某 些 值 臣 什 为 NA 
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ddply (cl, c("cCult", "), summarise, 
Weight = mean (HeadWt)， 
sd = sd(HeadWt)， 
n = length(HeadWt)) 
Cult Date Weight sd n 
c39 dl6 NA NA10 
c39 d20 NA NA 10 


c39 d21 2.74 0.9834181 10 

c52 dl6 2.26 0.4452215 10 

c52 d20 NA NA 10 

c52 d21 1.47 0.2110819 10 
这 里 有 两 个 问题 。 第 一 个 是 如 果 任 一 输入 值 包含 NA，nean () 和 sd () 函数 都 会 返回 NA。 
幸运 的 是 ， 这 些 函 数 都 有 一 个 参数 来 处 理 这 个 问题 ， 设 置 na.rm=TRUE 即 可 忽略 缺失 值 。 


第 二 个 问题 是 length () 函数 并 没有 对 缺失 值 进行 特殊 处 理 ， 而 是 将 它们 视 为 “正常 
值 "， 但 是 这 些 都 意味 着 缺失 数据 ， 因 此 它们 不 应 该 被 计算 在 频数 中 。length () 函数 
并 没有 na.rm 的 选项 ， 但 是 我 们 可 以 用 sum(!is.na(...)) 达到 相同 的 效果 。is.na() 
返回 一 个 逻辑 向 量 ; NA 返回 TRUE， 非 NA 返回 FALSE。 用 ! 取 反 后 ， 再 用 sum () 函数 
将 TRUE 的 数量 加 起 来 。 最 终 的 结果 就 是 非 缺 失 值 的 频数 ; 


ddply (cl, c("Cul "Date"), summarise, 
Weight = nean (HeadWt， na. rm=TRUE) , 
sd = sd(HeadWt, na.rm=TRUE), 
n= sum(!is.nal(HeadWt))) 





Cult Date Weight ad mn 
c39 d16 3.255556 0.9824855 9 
c39 d20 2.722222 0.1394433 9 
c39 d21 2.740000 0.9834181 10 
c52 d16 2.260000 0.4452215 10 
c52 d20 3.044444 0.8094923 9 
c52 d21 1.470000 0.2110819 10 


组 合 缺失 

如 果 在 分 组 变量 中 有 任何 “ 空 组 合 "， 它 们 就 不 会 出 现在 汇总 的 数据 框 中 。 缺 失 组 合 
会 给 绘图 带 来 麻烦 。 为 了 阐述 这 个 问题 ， 我 们 移 除 c52 和 d21 的 因子 组 合 的 所 有 样本 

点 。 图 15-3 左 图 就 以 柱状 图 的 形式 展示 了 组 合 缺 失 时 的 后 果 : 


4# 复制 cabbages 并 移 除 同时 包含 c52 和 d21 的 行 
c2 <- subset (c1，!( Cult=="c52" & Date=="d21" 






c2a <- ddply(c2, c("Cult", ™ 
Weight = mean (HeadWt, na. 
sd = sdlHeadit, na.rm=TRUE), 
n= suml!is.na(HeadWt))) 





c2a 
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Cult Date Weight sd n 
c39 d16 3.255556 0.9824855 9 
c39 d20 2.722222 0.1394433 9 
c39 d21 2.740000 0.9834181 10 
c52 d16 2.260000 0.4452215 10 
C52 d20 3.044444 0.8094923 9 


30- 

25- 
二 20- -7 
Ee = 

10- 

05- 

00- 

dl6 do dl 
Date 


图 15-3 左 图 : 有 组 合 缺失 的 柱状 图 右 图 : 填充 了 缺失 的 组 合 


# 绘图 
ggplot (c2a, aes(x=Date, fill=Cult, y=Weight)) + geom bar(position="dodge") 


为 了 填充 缺失 的 组 合 ( 见 图 15-3 右 图 )， 在 ddply() 函数 中 使 用 .drop=FALSE 即 可 : 


c2b <- ddply(c2, c("Cult", "Date"), .drop=FALSE, summarise, 
Weight = mean(HeadWt, na.rm=TRUE), 
sd = sd(HeadWt, na.rm=TRUE), 
n= suml(!is.na(HeadWt))) 














c2b 


Cult Date Weight sd n 
c39 d16 3.255556 0.9824855 9 
c39 d20 2.722222 0.1394433 9 
c39 d21 2.740000 0.9834181 10 
c52 d16 2.260000 0.4452215 10 
c52 d20 3.044444 0.8094923 9 
c52 d21 NaN NA 0 








ggplot (c2b, aes(x=Date, fill=Cult, y=Weight)) + geom bar (position 
另 见 
如 果 你 想 计 算 标准 误差 和 置信 区 间 ， 参 见 15.18 节 。 
6.8 节 给 出 了 一 个 使 用 stat_summary() 计算 均值 并 将 均值 堆 又 放 在 图 上 的 例子 。 
要 对 数据 进行 分 组 转换 ， 参 见 15.16 节 。 
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15.18 ”使 用 标准 误差 和 置信 区 间 来 汇总 数据 


问题 
如 何 使 用 标准 误差 或 置信 区 间 来 汇总 数据 ? 
方法 


计算 均值 的 标准 误差 包括 两 步 ， 首先 计算 各 组 的 标准 差 和 频数 ， 然 后 用 这 些 值 来 计算 
得 到 标准 误差 。 各 组 的 标准 误差 就 是 标准 差 除 以 样本 量 的 平方 根 。 

library (MASS) # 为 了 使 用 数据 集 

library (plyr) 





ca <- ddply(cabbages, c("C ， summarise, 
Weight = mean (HeadWt, na.rm=TRUE), 
sd = sd(HeadWt, na.rm=TRUE), 
n = sum(!is.na(HeadWt)), 
se = sd/sqrt (n)) 

ca 


Cult Date Weight sd n se 
c39 d16 3.18 0.9566144 10 0.30250803 


c39 d20 2.80 0.2788867 10 0.08819171 
c39 d21 2.74 0.9834181 10 0.31098410 
c52 dl6 2.26 0.4452215 10 0.14079141 
c52 d20 3.11 0.7908505 10 0.25008887 
c52 d21 1.47 0.2110819 10 0.06674995 


在 plyr 1.8 之 前 的 版 本 中 ，summarise() 会 同时 创建 所 有 的 新 列 ， 因 此 你 
得 在 创建 sd 和 n 列 之 后 再 单独 创建 se 列 。 





讨论 

另外 一 种 方法 是 在 ddply 函数 内 部 计算 标准 误差 。 因 为 在 ddply 函数 内 部 中 不 能 引用 

sd 和 n， 因 此 我 们 得 重新 计算 得 到 se。 下 面 的 代码 和 之 前 展示 的 两 步 法 效果 是 一 样 的 : 
ddply (cabbages, c("Cult", "Date"), summarise, 


Weight = mean (Headit, na.rm-TRUE), 
sd = sd(HeadNt, na.rm=TRUE), 














n = suml(!is.nal(HeadWt)), 
se = sd / sqrt(n)) 
置信 区 间 


置信 区 间 是 通过 均值 的 标准 误差 和 自由 度 计算 得 到 的 。 要 计算 置信 区 间 ， 首 先 使 用 
qt () 函数 得 到 分 位 数 ， 然 后 和 标准 误差 相 乘 即 可。 给 定 概率 值 和 自由 度 ，qt () 函数 
会 计算 出 对 应 + 分布 的 分 位 数 。 对 95% 的 置信 区 间 来 说 ， 应 该 使 用 0.975 的 概率 值 ; 
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对 钟 形 的 t+ 分布 ， 这 对 应 了 曲线 两 端 各 2.5% 的 面积 。 自 由 度 是 样本 量 大 小 减 去 1。 


下 面 的 代码 将 会 计算 每 组 标准 误差 的 乘 数 。 由 于 一 共有 6 个 组 并 且 每 组 都 有 10 个 观 
测 值 ， 因 此 它们 有 相同 的 乘 数 。 
ciMult <- qt(.975, ca$n-i) 


ciMult 


# 2.262157 2.262157 2.262157 2.262157 2.262157 2.262157 


现在 我 们 可 以 将 上 面 的 向 量 乘 以 标准 误差 来 得 到 95% 的 置信 区 间 : 


caSci <- ca$se * ciMult 





又 


Cult Date Weight sd n se ci 
c39 d16 3.18 0.9566144 10 0.30250803 0.6843207 


c39 d20 2.80 0.2788867 10 0.08819171 0.1995035 
c39 d21 2.74 0.9834181 10 0.31098410 0.7034949 
c52 dl6 2.26 0.4452215 10 0.14079141 0.3184923 
c52 d20 3,.11 0.7908505 10 0.25008887 0,5657403 
c52 d21 1.47 0.2110819 10 0.06674995 0.1509989 


我 们 可 以 一 步 完 成 上 面 的 事情 ， 如 下 : 


ca$ci95 <- ca$se * qt(.975, ca$n) 
对 99% 的 置信 区 间 ， 使 用 0.995 的 概率 值 。 


误差 条 表示 均值 的 标准 误差 ， 它 和 置信 区 间 有 相同 的 功能 : 给 看 图 的 人 展示 估计 总 体 均 
值 的 好 坏 程度 。 标 准 误差 是 抽样 分 布 的 标准 差 。 置 信 区 间 更 容易 解释 。 很 粗略 地 来 说 ， 
95% 的 置信 区 间 意 味 着 总 体 均值 有 95% 的 机 率 落 在 区 间 中 实际 上 ， 它 的 含义 并 不 是 这 
样 ， 但 是 这 貌似 简单 的 话题 很 难 在 这 里 解释 ， 如 果 你 想 深入 了 解 ， 请 阅读 贝 叶 斯 统计 学 )。 
这 个 函数 会 一 并 计算 标准 差 、 频 数 、 标 准 误差 和 置信 区 间 。 并 且 它 还 可 以 处 理 缺 失 值 
和 空缺 组 合 ， 此 时 只 需 设置 na.rm 和 .drop 选项 即 可 。 函 数 默 认 计算 的 是 95% 的 置信 
区 间 ， 这 个 也 可 以 通过 conf.interval 参数 来 改变 。 


summarySE <- function (data=-NULL, measurevar, groupvars=NULL, 
conf.interval=.35, na.rm=FALSE, .drop=TRUE) { 
require (plyr) 


振 新 版 本 的 length 可 以 处 理 缺 失 值 : 如 果 na.rm==T， 则 排除 缺失 值 
length2 <- function (x, na.rm-FALSE) { 

if (na.rm) sum(!is.na(x)) 

else length (x) 
1 


# 汇总 
datac <- ddply(ldata, groupvars, .drop=,drop, 
.fun = function(xx, col, na.rm) { 
cln = length2(xx[,col], na.rm=na.rm), 
mean = mean (xx[,col], na.rm=na.rm), 


数据 塑 形 301 


sd = sd (xx[,col], na.rm=na.rm) 


}, 
measurevar, 
na .rm 


六 重 命名 "mean” 列 
datac <- rename (datac, c("mean" = measurevar)) 


datac$se <- datac$sd / sqrt (datac$n) 地 计算 均值 的 标准 误差 


# 标准 误差 的 置信 区 间 乘 

# 为 置信 区 间 计量 : 

地 比如 ， 如 果 conf ,interval 是 .95， 就 使 用 .975 (上 /下 ), 并 且 
# 使 用 df=n-1， 或 如 果 n==0, 则 df=0 

ciMult <- qtlconf.interval/2 + ,5, datac$n-1) 
datac$ci <- datac$se * ciMult 









return (datac) 
} 


这 里 的 应 用 例子 计算 99% 的 置信 区 间 ， 并 且 可 以 处 理 缺失 值 和 空缺 组 合 : 


# 移 除 c52 和 d21 对 应 的 所 有 行 
c2 <- subset (cabbages, !( Cult=="c52" & Date=="d21" ) ) 


所 将 一 些 值 设置 为 NA 
c2$HeadWt [c (1,20,45)] <- NA 


"Date"), conf.interval=.99, 





Cult Date n Headwt sd se ci 
c39 dl6 9 3.255556 0.9824855 0.32749517 1.0988731 
c39 d20 9 2.722222 0.1394433 0.04648111 0.1559621 
c39 d21 10 2.740000 0.9834181 0.31098410 1.0106472 
c52 dl6 10 2.260000 0.4452215 0.14079141 0.4575489 
c52 d20 9 3.044444 0.8094923 0.26983077 0.9053867 
c52 d21 0 NaN NA NA NA 


Warning message: 
In qt(p, df, lower.tail, log.p) : NaNs produced 


有 空缺 组 合 的 时 候 ， 程 序 会 给 出 警告 信息 。 这 并 不 是 一 个 问题 ， 只 是 告诉 我 们 它 不 能 
计算 一 个 没有 观测 值 的 组 的 分 位 数 。 


另 见 
使 用 这 里 计算 的 值 并 添加 误差 条 到 一 个 图 上 ， 参 见 7.7 节 。 
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15.19 把 数据 框 从 “ 宽 ” 变 pa a 


问题 
如 何 把 把 数据 框 从 “ 宽 ” 变 “长 "? 


方法 
使 用 reshape2 包 中 的 melt () 函数 。 在 anthoming 数据 集中 ，angle 表示 蚂蚁 行走 方 
向 与 家 的 方向 的 角度 〈 正 表示 顺 时 针 )， 每 个 angle 有 两 个 度量 变量 (measurement) 
描述 它 ，expt 表示 在 实验 条 件 下 走 这 个 方向 的 蚂蚁 数量 ，ctr1 表示 在 控制 条 件 下 走 
这 个 方向 的 蚂蚁 数量 : 

library (gcookbook) 地 为 了 使 用 数据 


anthoming 


angle expt ctrl 
-20 1 0 


-10 7 3 
0 2 3 
10 0 3 
20 0 1 


我 们 可 以 重 塑 该 数据 的 结构 ， 把 两 个 度量 变量 都 放 在 单独 一 列 中 。 具 体 的 做 法 是 把 这 
两 列 的 值 放 在 一 列 中 并 新 增 一 列 存放 两 列 的 名 称 : 


library (reshape2) 
melt (anthoming, id.vars="angle", variable.name="condition", value.name="count") 


angle condition count 


-20 expt 1 
-10 expt 7 
0 expt 2 
10 expt 0 
20 expt 0 
-20 ctrl 0 
-10 ctrl 3 
0 ctrl 3 
10 ctrl 3 
20 ctrl 1 

两 个 数据 框 包 含 了 一 样 的 信息 ， 但 是 第 二 种 组 织 方式 在 某 些 情况 下 更 有 利于 我 们 分 析 。 


讨论 

在 原 数据 中 ， 有 标识 变量 (ID variable) 和 度量 变量 (measure variable)。 标 识 标量 表明 哪些 
值 要 汇集 到 一 起 ， 即 哪些 值 是 在 描述 同一 个 对 象 。 在 原 数据 中 ， 第 一 行 有 两 个 度量 变量 来 
描述 angle 是 -20 的 情况 。 在 变换 后 的 数据 中 ， 两 个 度量 变量 expt 和 ctrl 不 再 出 现在 同一 
行 中 ， 但 是 我 们 仍然 可 以 看 出 它们 都 在 描述 同一 个 angle， 因 为 它们 的 angle 值 是 一 样 的 。 
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度量 变量 会 被 默认 为 除 标识 变量 以 外 的 所 有 变量 。 这 些 度量 变量 的 名 称 会 被 放 到 一 个 
叫 variable.name 的 列 中 ， 而 它们 对 应 的 取 值 则 是 放 到 一 个 名 为 value.name 的 列 中 。 


如 果 你 不 想 用 所 有 的 非 标识 变量 作为 度量 变量 ， 可 以 指明 哪些 变量 是 你 需要 的 〈 参 数 
measure.vars)。 例 如 ， 在 drunk 数据 集中 ， 我 们 可 以 只 用 0-29 和 30-39 这 两 组 : 
0-29 30-39 40-49 50-59 60+ 


male 185 207 260 180 71 
female 4 13 10 7 10 





", measure.vars=c("0-29", "30-39"), 
» value.name=" t") 


melt (drunk, id.vars= 
variable.name=" 





sex age count 
male 0-29 185 
female 0-29 4 
male 30-39 207 
female 30-39 。 13 


同样 ， 也 可 以 用 多 列 作为 标识 变量 : 


plum wide 


length time dead alive 
long at once 84 156 
long in spring 156 84 
short at once 133 107 
short in_spring 209 31 


melt (plum wide, id.vars=c ("length", "time"), variable.name="survival”, 
value.name="count") 


length time survival count 
long at_once dead 84 
long in_spring dead 156 
short atonce dead 133 
short in_spring dead 209 
long at_once alive 156 
long in spring alive 84 
short atonce alive 107 
short in spring alive 31 


有 些 数 据 集 并 不 具备 标识 变量 。 例 如 ， 在 corneas 数据 集中 ， 每 一 行 代表 了 一 对 度量 
变量 ， 但 是 这 里 没有 标识 变量 。 没 有 标识 变量 ， 你 无 法 知道 哪些 值 是 在 描述 同一 个 对 
象 。 这 种 情况 下 ， 你 可 以 在 用 melt () 函数 之 前 给 这 个 数据 框 添加 一 个 标识 变量 。 

# 创造 数据 的 一 个 副本 


co <- corneas 
co 


affected notaffected 


488 484 
478 478 
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480 492 
426 444 
440 436 
410 398 
458 464 
460 476 
# 添 加 
co$id <- i:nrow(co) 
melt (co, id.vars="id", variable.name="ey 
id eye thickness 
1 affected 488 
2 affected 478 
3 affected 480 
4 affected 426 
5 affected 440 
6 。 affected 410 
7 。 affected 458 
8 affected 460 
1 notaffected 484 
2 notaffected 478 
3 notaffected 492 
4 notaffected 444 
5 notaffected 436 
6 notaffected 398 
7 notaffected 464 
8 notaffected 476 


", value.name="thickn 


用 数值 作为 标识 变量 可 能 会 给 后 续 分 析 带 来 问题 ， 所 以 你 可 能 要 用 as .character () 


函数 把 它 转化 成 字符 型 的 向 量 或 者 用 factor () 将 其 转化 为 因子 。 


另 见 


从 “长 ”到 “ 宽 ” 的 转化 ， 参 见 15.20 节 。 
stack() 函数 也 可 以 把 数据 框 从 “ 宽 ” 变 “长 ”， 请 参见 R 的 帮助 文档 。 


15.20 把 数据 框 从 4 长 ” 变 “ 宽 ” 


问题 


如 何 把 数据 框 从 “长 ” 变 “ 宽 ”? 


方法 


使 用 reshape2 包 中 的 dcast () 函数 。 在 这 个 例子 中 ， 我 们 使 用 plum 数据 集 ， 它 是 以 


长 格式 进行 存储 的 。 


library(gcookbook) 二 


plum 


为 了 使 用 数据 集 
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length time survival count 
long atonce dead 84 
long in spring dead 156 
short atonce dead 133 
short in spring dead 209 
long atonce alive 156 
long in spring alive 84 
short atonce alive 107 
short in_spring alive 31 


从 “长 ”到 “ 宽 ” 的 转化 把 一 列 中 不 重复 的 值 提取 出 来 并 用 它们 作为 新 列 的 名 称 ， 然 
后 用 另 一 列 作为 新 列 的 数据 源 。 例 如 ， 我 们 可 以 把 survival 中 的 值 放 到 表格 顶端， 
然后 用 count 中 的 值 去 进行 填充 : 


library(reshape2) 
dcast (plum, length + time ~ survival, value.var=" 





length time dead alive 
long at once 84 156 
long in_spring 156 84 
short at_once 133 107 
short in_spring 209 31 


讨论 

dcast () 函数 要 求 你 指明 标识 变量 ( 留 下 来 的 列 ) 和 可 变 变量 (variable variable) (会 
转化 成 新 生成 列 的 变量 )。 这 个 步骤 用 公式 完成 ， 波 浪 线 (~) 左边 表示 标识 变量 ， 右 
边 表示 可 变 变量 。 
前 面 的 例子 有 两 个 标识 变量 和 一 个 可 变 变 量 。 下 一 个 例子 中 只 有 一 个 标识 变量 但 是 有 
两 个 可 变 变量 。 当 有 多 个 可 变 变 量 时 ， 生 成 的 列 名 由 下 划 线 连接 起 来 : 





dcast (plum, time ~ length + survival, value.var="count") 
time long_dead long alive short_dead short_alive 
at_once 84 156 133 107 
in_spring 156 84 209 31 
另 见 


数据 从 “ 宽 ” 变 “长 ”， 参 见 15.19 节 。 
unstack() 函数 也 可 以 把 数据 框 从 “长 ” 变 “ 宽 "， 参 见 R 的 帮助 文档 。 


15.21 ”把 时 间 序 列 数 据 对 象 拆 分 成 时 间 和 数据 


问题 
如 何 把 时 间 序列 对 象 拆 分 成 观测 时 间 和 每 个 时 点 的 观测 数据 ? 
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方法 
time () 函数 可 以 得 到 每 个 观测 的 时 间 值 ， 然 后 用 as.numeric () 函数 将 时 间 和 该 数据 
转化 为 数值 形式 : 


# 查看 时 间 序 列 对 象 nhtemp 
nhtemp 


Time Series: 
Start = 1912 
End = 1971 
Frequency = 1 
[1] 49.9 52.3 4 1 49.4 47.9 49 
[16] 50.7 50.9 5 5 52.8 51.8 51. 
0.6 5 *“5 52.1 51.3 51 
0.2 52. 6 51.9 50.5 50 


.8 50.9 49.3 51.9 50.8 
49.8 50.2 50.4 51.6 
3.1 
0.8 


54.0 51.4 52.7 5 
51.7 51.4 51.7 50. 


[31] 51.0 5 
[46] 52.6 5| 


8 
1 
0 
:9 


# 得 到 每 次 观测 
as.numeric 








ve (nhtemp) ) 


[1] 1912 1913 1914 1915 1916 1917 1918 1919 1920 1921 1922 1923 1924 1925 1926 
[16] 1927 1928 1929 1930 1931 1932 1933 1934 1935 1936 1937 1938 1939 1940 1941 
[31] 1942 1943 1944 1945 1946 1947 1948 1949 1950 1951 1952 1953 1954 1955 1956 
[46] 1957 1958 1959 1960 1961 1962 1963 1964 1965 1966 1967 1968 1969 1970 1971 





# 得 到 每 次 

as.numeric 

[1] 49.9 52.3 49.4 51.1 49.4 47.9 49.8 50.9 49.3 51.9 50.8 49.6 49.3 50.6 48.4 
[16] 50.7 50.9 50.6 51.5 52.8 51.8 51.1 49.8 50.2 50.4 51.6 51.8 50.9 48.8 51.7 
[31] 51.0 50.6 51.7 51.5 52.1 51.3 51.0 54.0 51.4 52.7 53.1 54.6 52.0 52.0 50.9 
[46] 52.6 50.2 52.6 51.6 51.9 50.5 50.9 51.7 51.4 51.7 50.8 51.9 51.8 51.9 53.0 





year temp 
1912 49.9 
1913 52.3 


1970 51.9 
1971 53.0 


讨论 
当 观 测 时 间 是 有 规律 的 时 间 区 间 时 ， 时 间 序 列 对 象 能 有 效 地 存储 信息 ， 但 是 为 了 使 用 
ggplot2， 它 们 需要 被 拆 分 成 观测 时 间 和 观测 数据 。 
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有 些 时 间 序 列 对 象 是 周期 性 的 。 例 如 ，presidents 数据 集 ， 每 一 年 有 四 个 观测 ， 一 个 
季度 一 次 观测 : 


presidents 


Qtrl Qtr2 Qtr3 Qtr4 
1945 NA 87 82 75 
1946 63 50 43 32 
1947 35 60 54 55 


1972 49 61 NA NA 
1973 68 44 40 27 
1974 28 25 24 24 


为 了 把 它 转化 为 有 两 列 值 的 数据 框 ， 其 中 一 列 用 分 数 表示 年 ， 其 步骤 和 前 面 的 一 样 : 


pres_rating <- data.frame( 
year = as.numeric(time(presidents)), 
rating = as.numeric(presidents) 

) 

pres_rating 


year rating 
1945.00 NA 
1945.25 87 
1945.50 82 
1974.25 25 
1974.50 24 
1974.75 24 


我 们 也 可 以 把 年 和 季度 分 别 存在 两 列 ， 这 可 能 对 于 某 些 可 视 化 方法 会 有 所 帮助 : 


pres_rating2 <- data.frame( 


year = as.numeric (floor (time (presidents))), 
quarter = as.numeric (cycle (presidents)), 
rating = as.numeric(presidents) 


) 
pres_rating2 


year quarter rating 


1945 1 NA 

1945 2 87 

1945 3 82 

1974 2 25 

1974 3 24 

1974 4 24 
另 见 


Zoo 包 在 处 理 时 间 序列 对 象 的 时 候 也 非常 有 用 。 
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ggplot2 介 绍 


本 书 的 很 多 内 容 都 涉及 Hadley Wickham 编写 的 ggplot2 包 。ggplot2 的 出 现 只 有 几 年 时 
间 ， 但 就 在 这 短 短 的 时 间 之 内 ， 它 已 经 吸引 了 R 社区 内 的 众多 用 户 ， 这 无 不 归 因 于 它 
的 功能 丰富 、 有 着 清晰 一 致 的 接口 以 及 美观 的 输出 。 

相 比 R 中 的 其 他 绘图 包 ，ggplot2 采取 了 一 种 不 同 的 制图 方式 。 它 得 名 于 Leland 
Wilkinson 的 《Grammar of Graphics》( 图 形 的 语法 ) 一 书 ， 这 本 书 为 描述 数据 类 图 形 
提供 了 一 套 形 式 化 的 、 结 构 化 的 观点 。 

尽管 本 书 很 多 内 容 是 围绕 ggplot2 写成 ， 但 这 并 不 意味 着 它 就 是 R 图 形 的 终极 归宿 。 
举例 来 说 ， 有 时 候 我 们 会 发 现 使 用 R 基础 图 形 来 观察 和 探索 数据 更 快 更 简单 ， 特 别 是 
在 数据 尚未 被 合适 地 结构 化 以 配合 ggplot2 使 用 之 前 。 有 些 任务 ggplot2 却 无 法 完成 
或 是 无 法 像 其 他 的 绘图 包 做 得 那样 好 。 有 些 其 他 的 任务 ggplot2 虽然 可 以 胜任 ， 但 却 
更 适合 用 某 些 特定 的 包 来 处 理 。 不 过 在 大 多 数 场合 ， 我 相信 ggplot2 可 以 对 投入 的 时 
间 给 出 最 好 的 回报 ， 而 且 它 提供 了 美观 、 具 备 出 版 级 质量 的 输出 结果 。 

另 一 个 优秀 的 通用 图 形 包 是 Deepayan Sarkar 的 lattice 包 ， 这 是 一 套 格子 (trellis) 图 
形 的 实现 ， 它 包含 在 RR 的 基础 安装 中 。 

如 果 你 想 对 ggplot2 有 更 深入 的 理解 ， 请 继续 阅读 吧 ! 


A.1 背景 知识 


在 数据 图 形 中 ， 存 在 着 一 种 从 数据 属性 到 视觉 属性 的 映射 (或 者 说 对 应 )。 数 据 属性 
通常 是 数值 或 类 别 ， 而 视觉 属性 则 包括 点 的 x 和 ?坐标 、 线 条 颜色 、 条 形 的 高 度 等 。 
不 将 数据 映射 为 视觉 属性 的 可 视 化 并 不 能 算是 数据 可 视 化 。 从 表面 上 看 ， 使 用 x 轴 上 
的 坐标 来 表示 一 个 数值 ， 可 能 看 起 来 和 使 用 某 种 带 颜 色 的 点 来 表示 一 个 数值 有 很 大 的 
不 同 ， 但 是 在 抽象 的 层面 上 ， 它 们 是 一 样 的 。 只 要 是 做 过 数据 图 形 的 人 ， 至 少 会 对 这 
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一 点 有 一 种 模糊 的 认识 。 对 于 大 多 数 人 来 说 ， 这 种 认识 也 就 停留 在 这 个 阶段 。 

对 于 “图 形 的 语法 ”理论 来 说 ， 这 种 深刻 的 相似 性 不 单单 得 到 了 承认 ， 而 且 更 是 处 于 

中 心地 位 。 在 R 的 基础 绘图 函数 中 ， 每 种 数据 属性 到 视觉 属性 的 映射 都 仅仅 是 单个 函 

数 本 身 的 特例 ， 而 且 映射 的 变更 可 能 需要 重 构 数据 ， 或 是 键入 完全 不 同 的 绘图 命令 ， 

为 了 说 明 这 一 点 ， 下 面 将 会 展示 一 幅 根据 gcookbook 包 中 的 simpledat 数据 集 绘制 的 图 形 : 
library(gcookbook) # 为 了 使 用 数据 集 


simpledat 


Al A2 A3 
B110 7 12 
B2 911 6 


此 数据 可 以 绘制 一 幅 简 单 的 分 组 条 形 图 ， 各 A 值 沿 x 轴 排 布 ， 条 形 依 B 值 分 组 ( 见 
图 A-1): 


barplot (simpledat, beside=TRUE) 


Hil 





024681012| 








图 A-1 使 用 barplot () 绘制 的 条 形 图 


我 们 可 能 想 做 的 一 件 事 就 是 ， 调 换 数 据 值 的 位 置 ， 使 得 B 值 沿 x 轴 排 布 而 A 值 用 来 分 
组 。 要 这 样 做 ， 我 们 需要 转 置 矩 阵 以 重 构 数据 : 
t(simpledat) 
B1 B2 
Al10 9 


22 7 11 
A312 6 


使 用 重 构 后 的 数据 ， 我 们 就 可 以 像 前 面 一 样 创建 图 形 了 ( 见 图 A-2): 
barplot (t (simpledat), beside=TRUE) 

男 一 方面 ， 我 们 可 能 想 使 用 线条 而 不 是 条 形 来 呈现 数据 ， 如 图 A-3 所 示 。 要 使 用 基础 图 

形 完成 这 项 任务 ， 我 们 需要 使 用 一 套 完 全 不 同 的 命令 。 首 先 ， 我 们 需要 调用 plot () 来 通 
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知 RR 创建 一 幅 新 图 并 为 其 中 一 行 数据 绘制 一 条 线 ， 然 后 使 用 lines () 去 绘制 男 一 行 数据 : 


plot (simpledat [1, 1, 
lines (simpledat [2,], typ 
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图 A-3 使 用 plot () 和 lines () 绘制 的 折线 图 


结果 图 中 有 一 些 怪异 的 地 方 。 第 二 条 蓝 色 ) 线 的 下 部 超出 了 可 见 范围 ， 这 是 因为 》 轴 的 
范围 是 在 调用 plot () 函数 时 仅 为 第 一 条 线 设 定 的 。 另 外 ，x 轴 是 数值 型 而 不 是 类 别 型 。 
现在 让 我 们 来 看 看 对 应 的 ggplot2 代码 和 图 形 。 对 于 ggplot2 来 说 ， 数 据 的 结构 是 一 成 
不 变 的 : 它 要 求 的 是 “长 ”格式 的 数据 框 ， 而 不 是 之 前 使 用 的 相反 的 “ 宽 ” 格 式 。 当 
数据 为 长 格式 时 ， 每 行 表示 一 个 条 目 。 其 所 属 的 分 组 不 由 它们 在 和 矩阵 中 的 位 置 决定 ， 
而 是 在 一 个 单独 的 列 中 指定 。 这 是 将 simpledat 转换 为 长 格式 的 结果 : 


simpledat_long 





Aval Bval value 
Al Bl 10 


Al B2 9 
B22 Bl 则 
A2 B2 11 
A3 Bl 12 
BR3 B2 6 
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这 种 格式 使 用 了 不 同 的 结构 ， 表 示 的 却 是 相同 的 信息 。 长 格式 有 利 有 弊 ， 但 总 的 来 
说 ， 我 发 现在 处 理 复杂 数据 集 的 时 候 它 能 让 事情 变 得 简单 一 些 。 关 于 宽 格式 和 长 格式 
之 间 的 转换 方法 ， 参 见 15.19 节 和 15.20 节 。 


要 绘制 第 一 幅 分 组 条 形 图 〈 见 图 A-4) ， 我 们 首先 需要 加 载 ggplot2 包 。 然 后 使 用 x=Aval 
将 aval 映射 至 x 轴 ， 使 用 fill=Bval 将 Bval 映射 为 填充 色 。 这 样 就 使 得 各 A 值 沿 x 轴 
分 布 ， 而 让 B 值 决定 分 组 。 我 们 还 需要 使 用 y=value 将 value 映射 到 y 的 位 置 ， 即 条 形 
的 高 度 。 最 后 ， 我 们 使 用 geom_bar () 来 绘制 条 形 ( 别 担心 其 他 细节 ， 我 们 会 很 快 讲 到 ): 


library (ggplot2) 
ggplot (simpledat_long, aes(x=Aval, rt fill=Bval)) + 
geom_bar (stat=" ", position="dodge") 
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图 A-4 使 用 ggplot () 和 geom_bar () 绘制 的 条 形 图 


要 调换 位 置 ， 令 B 值 沿 x 轴 排 布 而 让 A 值 决定 分 组 ( 见 图 A-5)， 只 需 简单 地 交换 映 
射 参 数 ， 使 得 x=Bval 且 fill=aval 即 可 。 与 基础 图 形 不 同 的 是 ， 这 里 无 需 修改 数据 ， 
仅 需 修改 绘图 命令 ; 


ggplot (simpledat_long, aes(x=Bval, y=value, fill=Aval)) + 
geom bar (stat=" tity", position="dodge") 
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A-5 ”相同 数据 交换 了 x 和 fill 映射 的 条 形 图 
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你 可 能 已 经 注意 到 了 ， 在 ggplot2 中 ， 各 个 图 形 部 件 都 是 通过 操作 符 + 进 
行 组 合 的 。 你 可 以 通过 添加 组 件 的 方式 来 渐进 式 地 构建 一 个 ggplot 对 象 ， 
在 做 完 以 后 ， 就 可 以 打印 出 来 了 . 

要 将 图 A-5 所 示 的 图 修改 为 折线 图 ( 见 图 A-6)， 需 要 把 geom_bar () 修改 为 geom_ 
line () 。 同 时 使 用 参数 colour 将 Bval 映射 为 线条 的 颜色 而 非 填充 的 颜色 注意 参数 名 
称 的 英 式 拼 法 一 一 因为 ggplot 的 作者 是 新 西 兰 人 )。 同 样 ， 我 们 仍然 无 需 担 心 其 他 细节 : 


ggplot (simpledat_long, aes(x=Aval, y=value, colour=Bval, group=Bval)) + 
geom_line() 








目 -说 


A A2 A 
Aval 








图 A-6 使 用 ggplot () 和 geom_line() 绘制 的 折线 图 


在 结合 基础 图 形 将 条 形 图 改 为 折线 图 时 ， 我 们 不 得 不 使 用 完全 不 同 的 命令 。 但 通过 
ggploD， 我 们 仅 需 将 几何 对 象 从 条 形 改 为 线条 。 结 果 图 也 与 基础 图 形 版 有 着 重要 区 别 : 由 
于 所 有 的 线条 都 是 同时 绘制 而 非 每 次 绘制 一 条 ， 所 以 y 的 范围 已 被 自动 调整 以 适应 全 体 数 
据 ， 且 x 轴 仍 保持 为 类 别 型 而 不 会 被 转换 为 数值 型 。ggplot2 图 形 还 带 有 自动 生成 的 图 例 。 


A.2 若干 术语 和 理论 
在 更 进一步 之 前 ， 先 定义 一 些 ggplot2 中 使 用 的 术语 会 有 所 帮助 。 


。 数据 (data) 是 我 们 想 要 可 视 化 的 对 象 。 其 中 包含 了 变量 (variable)， 变 量 存 储 于 
数据 框 的 每 一 列 。 

。 几何 对 象 (geom) 是 用 以 呈现 数据 的 几何 图 形 对 象 ， 如 条 形 、 线 条 和 点 。 

。 图 形 属性 (aesthetic) 是 几何 对 象 的 视觉 属性 ， 如 z 坐标 和 ? 坐标 、 线 条 颜色 、 点 
的 形状 等 。 

。 数据 的 值 和 图 形 属 性 之 间 存 在 着 某 类 映射 (mapping )。 

。 标 度 〈scale) 控制 着 数据 空间 的 值 到 图 形 属性 空间 的 值 的 映射 。 一 个 连续 型 的 y 标 
度 会 将 较 大 的 数值 映射 至 空间 中 纵向 更 高 的 位 置 。 

。 引导 元 素 (guide) 向 看 图 者 展示 了 如 何 将 视觉 属性 映射 回 数据 空间 。 最 常用 的 引导 
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元 素 是 坐标 轴 上 的 刻度 线 和 标签 。 

要 了 解 一 个 典型 的 映射 是 如 何 工 作 的 ， 可 以 来 看 一 个 例子 。 我 们 拥有 数据 ， 也 就 是 一 
组 数值 或 类 别 值 。 有 几何 对 象 来 表示 每 个 观测 。 我 们 有 图 形 属性 ， 如 纵向 ) 的 位 置 。 
还 有 一 种 标 度 定 义 了 从 数据 空间 (数值 到 图 形 属性 空间 (纵向 位 置 ) 的 映射 。 一 个 
典型 的 线性 y 标 度 可 将 数值 0 映射 到 图 形 的 基线 ， 将 5 映射 到 中 间 ， 将 10 映 射 到 顶端 。 
一 个 对 数 型 y 标 度 则 会 以 不 同 的 方式 放置 它们 。 

以 上 并 不 是 仅 有 的 数据 空间 和 图 形 属性 空间 。 在 抽象 的 图 形 语法 层面 ， 数 据 和 图 形 属性 可 
以 是 任何 东西 ， 在 ggploe 的 实现 中 ， 有 一 些 预定 义 的 数据 和 图 形 属性 类 型 。 常 用 的 数据 类 
型 包括 数值 、 类 别 值 和 字符 串 。 一 些 常用 的 图 形 属性 包括 模 纵 位 置 、 颜 色 、 大 小 和 形状 。 


要 解读 图 形 ， 看 图 者 需要 参考 引导 元 素 。 引 导 元 素 的 一 个 例子 是 包含 刻度 线 和 标签 的 
了 轴 。 看 图 者 参考 这 个 引导 元 素 ， 以 解读 某 个 点 位 于 标 度 中 间 所 表示 的 含义 。 图 例 则 
是 另 一 类 引导 元 素 。 一 个 图 例 可 向 人 们 展示 环形 或 三 角形 的 点 所 代表 的 含义 ， 或 者 蓝 
色 或 红色 的 线条 所 代表 的 含义 。 


某 些 图 形 属性 ， 如 点 的 形状 〈 三 角形 、 环 形 、 正 方形 等 )， 仅 对 类 别 型 变量 有 效 。 某 
些 图 形 属性 则 对 类 别 型 和 连续 型 变量 都 有 效 ， 如 x (横向 ) 的 位 置 。 对 于 条 形 图 ， 变 
量 必须 为 类 别 型 一 x 轴 上 放 一 个 连续 型 变量 是 毫 无 意义 的 。 对 于 散 点 图 ， 变 量 必须 
为 数值 型 。 这 些 数据 类 型 类别 型 和 数值 型 ) 均 可 被 映射 到 x 位 置 的 图 形 属性 空间 ， 
但 它们 需要 不 同类 型 的 标 度 。 


2 在 ggplot2 术语 中 ， 类 别 型 变量 被 称 为 离散 型 变量 ， 数 值 型 变量 则 叫做 连 

网 续 型 变量 。 这 些 术 语 可 能 并 不 总 是 与 别处 的 用 法 相对 应 。 在 ggplot2 意义 

& 下 的 连续 型 变量 有 时 是 常规 意义 下 的 离散 型 变量 。 例 如， 可 见 太阳 黑子 的 

数量 必 为 一 个 整数 ， 所 以 它 属于 数值 型 (对 于 ggplot2 来 说 是 连续 型 ) 和 
(在 日 常用 语 中 的 ) 离散 型 ， 


A.3 构建 一 幅 简 单 图 形 
ggplot2 对 数据 结构 的 要 求 很 简单 : 数据 必须 存储 于 数据 框 中 ， 且 每 类 被 映射 为 某 种 图 
形 属性 的 变量 必须 独立 集中 存储 在 一 列 。 在 前 文 的 simpledat 示例 中 ， 我 们 首先 将 一 
个 变量 映射 为 图 形 属性 x， 将 另 一 个 变量 映射 为 图 形 属性 fi11 ; 然后 改变 了 变量 到 图 
形 属性 的 映射 规则 。 
我 们 将 在 这 里 演练 一 个 简单 的 示例 。 首 先 ， 创 建 一 个 含有 一 些 样本 数据 的 数据 框 : 

dat <- data.frame (xval=1:4, yval=c{(3,5,6,9), group=c ("A","B", "A","B")) 


dat 


xval yval group 
1 3 A 
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一 个 基本 的 ggplot () 调用 范式 看 起 来 就 像 这 样 : 

ggplot (dat, aes (x=xval, y=yval)) 
这 样 就 使 用 数据 框 dat 创建 了 一 个 ggplot 对 象 。 同 时 也 在 aes () 中 指定 了 默认 的 图 
形 属性 映射 : 


。 x=xval 将 列 xval 映射 为 x 的 位 置 。 
。 y=yval 将 列 yval 映射 为 y 的 位 置 。 
在 我 们 赋 给 ggplot () 数据 框 和 图 形 属性 映射 后 ， 还 缺少 一 个 关键 的 组 件 ， 我 们 需要 
通知 它 将 哪 种 几何 对 象 放 在 那里 。 此 时 ，ggplot2 尚 不 知道 我 们 是 希望 将 条 形 、 线 条 、 
点 还 是 其 他 东西 绘制 到 图 形 上 。 我 们 将 添加 geom_point () 来 绘制 点 ， 得 到 的 结果 是 
一 幅 散 点 图 ( 见 图 A-7): 

ggplot (dat, aes(x=xval, y=yval)) + geom point() 











se 和 而 
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A-7 ”基本 的 散 点 图 


如 果 想 重用 其 中 的 一 些 组 件 ， 可 以 将 其 存储 到 变量 中 。 我 们 可 以 把 ggplot 对 象 保存 
到 p 中 ， 然 后 向 它 添加 geom_point () 。 这 样 做 的 效果 与 之 前 的 代码 相同 : 


P <- ggplot (dat, aes(x=xval, y=yval)) 
p + geom point() 


我 们 也 可 以 通过 将 aes () 放 入 geom_point () 的 调用 中 以 将 变量 group 映射 为 点 的 颜 
色 ， 并 指定 colour=group 〈 见 图 A-8): 


p + geom point (aes (colour=group)) 
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图 A-8 将 一 个 变量 映射 为 颜色 的 散 点 图 
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这 样 做 并 不 会 改变 我 们 之 前 在 ggplot (. . .) 内 部 定义 的 默认 图 形 属 性 映射 。 这 样 只 是 
为 特定 的 几何 对 象 ， 即 geom_point () 添加 了 一 个 图 形 属性 映射 。 如 果 我 们 再 添加 其 
他 的 几何 对 象 ， 此 映射 将 不 对 它们 适用 。 

与 这 种 图 形 属 性 映射 形成 对 比 的 是 图 形 属性 的 设置 。 这 次 ， 我 们 不 用 aes () ; 我 们 将 
直接 设置 colour 的 值 〈( 见 图 A-9); 


P + geom point (colour="blue") 
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图 A-9 设置 了 颜色 的 散 点 图 


我 们 也 可 以 修改 标 度 ， 也 就 是 从 数据 到 视觉 属性 的 映射 。 在 此 ， 我 们 将 改变 x 标 度 使 
其 拥有 一 个 更 大 的 范围 ( 见 图 A-10): 


p + geom point() + scale x_continuous(limits=c(0,5)) 
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图 A-10 增加 了 x 范围 的 散 点 图 
如 果 回 顾 一 下 colour=group 映射 的 例子 ， 我 们 也 可 以 修改 颜色 标 度 见 图 A-11): 


P + geom point() + 
scale_colour_manual (values=c ("orange", "forestgr 
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图 A-11 有 着 修改 过 的 颜色 和 不 同调 色 板 的 散 点 图 


每 当 我 们 修改 了 标 度 以 后 ， 引 导 元 素 也 发 生 了 变化 。 对 于 x 标 度 ， 引 导 元 素 为 x 轴 上 
的 刻度 线 。 对 于 颜色 标 度 ， 引 导 元 素 则 为 图 例 。 
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注意 ， 我 们 使 用 了 + 来 将 每 部 分 连接 到 一 起 。 在 上 例 中， 我们 以 + 结束 一 行 ， 然 后 在 下 一 
行 添加 更 多 内 容 。 如 果 你 要 写 多 行 ， 则 必须 将 + 放 在 每 行 的 末尾 ， 而 不 是 放 在 下 一 行 的 开 
始 。 否 则 ，R 解析 器 将 无 法 得 知 会 有 更 多 语句 出 现 ， 它 会 认为 表达 式 已 经 结束 并 对 其 求 值 。 


A.4 打印 输出 


在 R 基础 图 形 中 ， 绘 图 函数 会 告诉 R 将 图 形 绘制 到 输出 设备 (屏幕 或 者 文件 ) 上 
ggplot2 略 有 不 同 : 所 用 的 命令 并 不 直接 将 图 形 绘制 到 输出 设备 上 。 相 反 ， 函 数 用 于 构 
造 图 形 对 象 ， 只 有 在 像 print (object) 这 样 使 用 print () 函数 时 图 形 才 会 被 绘制 。 你 
可 能 会 想 ,“ 等 等 ， 我 还 没 告诉 R 打印 任何 东西 呢 ， 它 自己 就 画 出 了 这 些 图 啊 ! ”然而 ， 
这 不 尽 然 正确 。 在 及 中 ， 当 你 在 命令 提示 符 下 键入 命令 以 后 ， 实 际 上 发 生 了 两 件 事情 : 
首先 ， 这 条 命令 得 以 执行 ， 然 后 ， 针 对 这 条 命令 的 返回 结果 又 执行 了 print () 。 

交互 式 R 提示 符 下 的 表现 与 执行 一 个 脚本 或 函数 时 的 表现 有 所 不 同 。 在 脚本 中 ， 命 令 
不 会 被 自动 打印 出 来 。 函 数 的 情况 相同 ， 但 是 有 一 个 小 陷阱 : 函数 中 最 后 一 个 命令 的 
结果 将 被 返回 ， 所 以 如 果 你 从 R 提示 符 中 调用 函数 ， 最 后 一 个 命令 的 结果 将 被 打印 出 
来 ， 因 为 它 是 整个 函数 的 执行 结果 。 


四 便 的 接口 来 绘制 图 形 。 使 用 它 确 实 比 使 用 ggplot () 加 一 个 几何 对 象 需要 
”更 少 的 键入 ， 但 我 发 现 它 用 起 来 有 点 混乱 ， 因 为 它 指 定 特定 绘图 参数 的 方 
式 有 些许 不 同 。 我 认为 还 是 直接 使 用 ggplot () 更 加 简单 容易 。 


A.5 统计 变换 

在 将 数据 映射 到 图 形 属性 之 前 ， 有 时 必须 对 其 先 做 变换 或 汇总 。 确 实 如 此 ， 例 如 对 于 
直方 图 来 说 ， 样 本 点 先 被 分 组 然后 进行 计数 。 每 组 的 计数 值 用 以 指定 一 个 条 形 的 高 
度 。 有 些 几何 对 象 ， 如 geom_histogram()， 会 自动 为 你 做 好 这 些 事情 ， 但 有 些 情况 下 
你 也 会 希望 使 用 各 种 stat_xx 函数 来 自己 做 这 些 事 。 


A.6 主题 


图 形 外 观 的 某 些 方面 超出 了 图 形 语 法 的 范围 。 其 中 包括 绘图 区 的 背景 颜色 和 网 格 线 、 
坐标 轴 标签 和 图 形 标题 文字 使 用 的 字体 。 这 些 细 节 是 通过 theme () 函数 来 控制 的 ， 已 
在 第 9 章 讨论 。 


A.7 结语 


但 愿 现在 的 你 已 经 对 ggplot2 幕后 的 概念 有 了 一 定 的 认识 。 本 书 的 其 余部 分 将 会 向 你 
展示 如 何 使 用 它 ! 


[Sl 某 些 ggplot2 的 介绍 会 使 用 一 个 叫做 qplot () 的 函数 ， 它 可 以 作为 一 种 方 
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封面 介绍 


本 书 封面 上 的 动物 是 “驯鹿 ”( 学 名 角 鹿 )， 在 北美 地 区 称 为 北美 驯鹿 ， 是 栖息 于 北极 
和 亚 北极 地 区 的 一 个 鹿 种 。 驯 鹿 堪 称 是 为 恶劣 寒冷 的 环境 而 生 ， 因 为 它们 的 皮毛 
昔 角 、 嗅 觉 、 蹄 子 和 视力 已 经 全 然 适 应 了 低温 环境 。 

驯鹿 的 皮毛 由 一 个 长 满 直 立 、 中 空 、 管 状 毛 的 外 部 皮层 和 充满 类 羊毛 的 底部 皮层 组 
成 。 前 者 能 较 好 地 隔离 冷 空气 并 提供 水 中 的 浮力 。 这 种 皮毛 的 绝热 效果 极 佳 ， 当 驯鹿 
蟾 卧 在 雪 地 上 时 ， 能 不 令 积 雪 融化 。 驯 鹿 是 唯一 一 个 肉 雄 个 体 〈 包 括 鹿 仔 ) 皆 长 有 昔 
角 的 鹿 种 ， 在 现存 的 所 有 鹿 种 中 ， 相 对 于 体型 而 言 ， 驯 鹿 拥 有 的 莹 角 最 大 。 它 的 营 角 
每 年 脱落 一 次 ， 新 营 角 会 在 转 年 的 春天 和 夏天 长 出 来 。 

驯鹿 的 蹄 子 随 季节 而 变 : 夏季 ， 苦 原 和 柔软 湿 润 ， 蹄 垫 会 变 成 类 海绵 状 并 提供 额外 的 奔 
跑 动力 : 冬季 ， 蹄 热 会 收缩 变 紧 ， 显 露出 蹄 子 的 边缘 ， 驯 鹿 利 用 这 些 边 缘 抓 进 冰 层 
和 积 雪 层 以 防止 打滑 。 这 也 使 驯鹿 能 够 从 积 雪 中 控 出 〈 常 说 的 挖 坑 ) 它们 想 吃 的 食 
物 -种 名 为 石 贰 的 青 苦 〈 即 驯鹿 苦 )。 


2012 年 ， 英 国 伦敦 大 学 学 院 的 研究 者 发 现 ， 驯 鹿 是 唯一 一 种 能 够 看 到 紫外 线 的 哺乳 动 
物 。 人 类 的 视觉 只 能 看 到 波长 在 400 nm 以 上 的 光线 ， 驯 鹿 的 视觉 范围 则 低 至 320 nm。 
虽然 这 一 范围 仅仅 覆盖 了 我 们 基于 黑光 帮助 下 所 能 看 见 的 所 有 光谱 的 一 部 分 ， 但 已 足 
以 帮助 驯鹿 在 北极 的 炽 白 光线 中 看 清 东西 。 如 果 没 有 这 一 点 ， 驯 鹿 将 难以 做 到 。 


在 圣诞 老人 的 故事 里 ， 会 飞 的 驯鹿 拉 着 圣诞 老人 的 雪 要 。 驯 鹿 这 一 意象 最 早出 现在 1823 
年 一 首 名 为 《 圣 尼古拉斯 的 来 访 》 的 诗 中 。 在 这 首 诗 中 ， 驯 鹿 被 称 猛 冲 者 (Dasher) 、 
舞 者 、 欢 腾 、 办 婆娘 、 替 星 、 丘 比特 、 顿 德尔 Dunder) 和 比 利 斯 克 米 (Blixem)。 


封面 图 片 来 自 肖 的 《动物 学 )。 





